Extraer texto de un PDF
Como parte de la amplia colección de funciones de creación y edición de PDF de IronPDF, IronPDF también facilita el procesamiento granular del contenido de un documento PDF a través de sus métodos de extracción de contenido.
El método extractAllText
está disponible para todos los objetos PdfDocument
. La String
que devuelve extractAllText
contiene todo el texto contenido en cada página del PDF.
Este método es una forma cómoda de realizar la extracción de texto a nivel de documento a partir de PDF que contienen muchas páginas. Para extraer texto a nivel de página(es decir, sólo de un conjunto específico de páginas)utilice en su lugar el método extractTextFromPage
.
El siguiente fragmento de código extrae el texto de la primera página de un documento PDF.
PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
Cómo extraer texto de un PDF en Java
- Instalación de la biblioteca Java IronPDF para la extracción de texto PDF
- Importe un documento PDF específico o renderícelo desde una URL en Java
- Utilice
extraerTodoTexto
método para extraer texto de PDF - Utilice
extraerTextoDePágina
para realizar la extracción en una página específica - Extraer texto sin afectar al PDF original