Extraer texto de un PDF

Como parte de la amplia colección de funciones de creación y edición de PDF de IronPDF, IronPDF también facilita el procesamiento granular del contenido de un documento PDF a través de sus métodos de extracción de contenido.

El método extractAllText está disponible para todos los objetos PdfDocument. La String que devuelve extractAllText contiene todo el texto contenido en cada página del PDF.

Este método es una forma cómoda de realizar la extracción de texto a nivel de documento a partir de PDF que contienen muchas páginas. Para extraer texto a nivel de página(es decir, sólo de un conjunto específico de páginas)utilice en su lugar el método extractTextFromPage.

El siguiente fragmento de código extrae el texto de la primera página de un documento PDF.

PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));  
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
JAVA