Extraer texto de un PDF
Como parte de la amplia colección de funciones de creación y edición de PDF de IronPDF, IronPDF también facilita el procesamiento granular del contenido de un documento PDF a través de sus métodos de extracción de contenido.
Disponible en todos los objetos PdfDocument
está el método extractAllText
. La String
que devuelve extractAllText
contiene todo el texto de cada página en el PDF.
Este método es una forma cómoda de realizar la extracción de texto a nivel de documento a partir de PDF que contienen muchas páginas. Para extraer texto a nivel de página (es decir, solo de un conjunto específico de páginas), use el método extractTextFromPage
en su lugar.
El siguiente fragmento de código extrae el texto de la primera página de un documento PDF.
PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
PdfDocument document = PdfDocument.fromFile(Paths.get("sample.pdf"));
String firstPageText = document.extractTextFromPage(PageSelection.firstPage());
Cómo extraer texto de un PDF en Java
- Instalar la biblioteca de Java de IronPDF para la extracción de texto en PDF
- Importe un documento PDF específico o renderícelo desde una URL en Java
- Utilice el método
extractAllText
para extraer texto de PDF - Utilice el método
extractTextFromPage
para realizar la extracción en una página específica - Extraer texto sin afectar al PDF original