Saltar al pie de página
USANDO IRONPDF PARA JAVA

Cómo Leer Archivo PDF en Java

Este artículo explorará cómo crear un lector de PDF, para abrir un archivo PDF en su aplicación de software programáticamente. Para realizar esta tarea de manera efectiva, IronPDF para Java es una biblioteca del sistema que ayuda a abrir y leer archivos PDF utilizando el nombre del archivo en programas Java.

HierroPDF

La IronPDF - Biblioteca Java está construida sobre el ya exitoso .NET Framework. Esto hace de IronPDF una herramienta versátil para trabajar con documentos PDF en comparación con otras bibliotecas de clases como Apache PDFBox. Proporciona la facilidad para extraer y analizar contenido, cargar texto y cargar imágenes. También ofrece opciones para personalizar las páginas PDF, tales como el diseño de página, márgenes, cabecera y pie de página, orientación de página y mucho más.

Además de esto, IronPDF también admite la conversión de otros formatos de archivo, la protección de PDFs con contraseña, la firma digital, la fusión y división de documentos PDF.

Cómo leer archivos PDF en Java

Prerrequisitos

Para usar IronPDF para hacer un lector de PDF en Java, es necesario asegurarse de que los siguientes componentes estén instalados en la computadora:

  1. JDK - Se requiere el Kit de Desarrollo de Java para construir y ejecutar programas Java. Si no está instalado, descárguelo desde el Sitio Web de Oracle.
  2. IDE - El Entorno de Desarrollo Integrado es un software que ayuda a escribir, editar y depurar un programa. Descargue cualquier IDE para Java, por ejemplo, Eclipse, NetBeans, IntelliJ.
  3. Maven - Maven es una herramienta de automatización que ayuda a descargar bibliotecas del Repositorio Central. Descárguelo desde el Sitio Web de Apache Maven.
  4. IronPDF - Finalmente, se requiere IronPDF para leer el archivo PDF en Java. Esto debe añadirse como una dependencia en su Proyecto Maven de Java. Incluya el artefacto de IronPDF junto con la dependencia slf4j en el archivo pom.xml como se muestra en el ejemplo a continuación:
<!-- Add Maven dependencies for IronPDF -->
<dependencies>
    <!-- IronPDF Dependency -->
    <dependency>
        <groupId>com.ironsoftware</groupId>
        <artifactId>ironpdf</artifactId>
        <version>your-version-here</version>
    </dependency>

    <!-- SLF4J Dependency necessary for logging -->
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-api</artifactId>
        <version>1.7.32</version>
    </dependency>
</dependencies>
<!-- Add Maven dependencies for IronPDF -->
<dependencies>
    <!-- IronPDF Dependency -->
    <dependency>
        <groupId>com.ironsoftware</groupId>
        <artifactId>ironpdf</artifactId>
        <version>your-version-here</version>
    </dependency>

    <!-- SLF4J Dependency necessary for logging -->
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-api</artifactId>
        <version>1.7.32</version>
    </dependency>
</dependencies>
XML

Añadir las importaciones necesarias

Primero, añada el siguiente código en la parte superior del archivo fuente de Java para referenciar todos los métodos requeridos de IronPDF:

import com.ironsoftware.ironpdf.*;
// Necessary imports from IronPDF library
import com.ironsoftware.ironpdf.*;
// Necessary imports from IronPDF library
JAVA

A continuación, configure IronPDF con una clave de licencia válida para usar sus métodos. Invoque el método setLicenseKey en el método principal.

License.setLicenseKey("Your license key");
// Set your IronPDF license key - required for full version
License.setLicenseKey("Your license key");
// Set your IronPDF license key - required for full version
JAVA

Nota: Puede obtener una clave de licencia de prueba gratuita para crear, leer e imprimir PDFs.

Leer un archivo PDF existente en Java

Para leer archivos PDF, deben existir archivos PDF, o se puede crear uno. Este artículo usará un archivo PDF ya creado. El código es simple y un proceso de dos pasos para extraer texto del documento:

// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract all text from the PDF
String text = pdf.extractAllText();
// Print the extracted text
System.out.println(text);
// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract all text from the PDF
String text = pdf.extractAllText();
// Print the extracted text
System.out.println(text);
JAVA

En el código anterior, [fromFile](/java/object-reference/api/com/Iron Software/ironpdf/PdfDocument.html#fromFile(java.nio.file.Path)) abre un documento PDF. El método Paths.get obtiene el directorio del archivo y está listo para extraer el contenido del archivo. Luego, [extractAllText](/java/object-reference/api/com/Iron Software/ironpdf/PdfDocument.html#extractAllText()) lee todo el texto en el documento.

El resultado es:

Cómo Leer Archivo PDF en Java, Figura 1: Resultado de Lectura de Texto en PDF Resultado de Lectura de Texto en PDF

Leer texto de una página específica

IronPDF también puede leer contenido de una página específica en un PDF. El método extractTextFromPage usa un objeto PageSelection para aceptar un rango de página(s) del cual se leerá el texto.

En el siguiente ejemplo, se extrae el texto de la segunda página del documento PDF. PageSelection.singlePage toma el índice de la página que necesita ser extraída (índice comenzando desde 0).

// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract text from the second page (page index based, starts at 0, so 1 means second page)
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
// Print the extracted text from the specified page
System.out.println(text);
// Load the PDF document from file
PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
// Extract text from the second page (page index based, starts at 0, so 1 means second page)
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
// Print the extracted text from the specified page
System.out.println(text);
JAVA

Cómo Leer Archivo PDF en Java, Figura 2: Resultado de Lectura de Texto en PDF Resultado de Lectura de Texto en PDF

Otros métodos disponibles en la clase PageSelection que pueden usarse para extraer texto de varias páginas incluyen: [firstPage](/java/object-reference/api/com/Iron Software/ironpdf/edit/PageSelection.html#lastPage()), [lastPage](/java/object-reference/api/com/Iron Software/ironpdf/edit/PageSelection.html#firstPage()), [pageRange](/java/object-reference/api/com/Iron Software/ironpdf/edit/PageSelection.html#pageRange(int,int)) y [allPages](/java/object-reference/api/com/Iron Software/ironpdf/edit/PageSelection.html#allPages()).

Leer texto de un archivo PDF recién generado

La búsqueda de texto también se puede realizar en un archivo PDF recién generado desde un archivo HTML o URL. El siguiente código de ejemplo genera PDFs desde URL y extrae todo el texto del sitio web.

// Generate PDF from a URL
PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
// Extract all text from the generated PDF
String text = pdf.extractAllText();
// Print the extracted text from the URL
System.out.println("Text extracted from the website: " + text);
// Generate PDF from a URL
PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
// Extract all text from the generated PDF
String text = pdf.extractAllText();
// Print the extracted text from the URL
System.out.println("Text extracted from the website: " + text);
JAVA

Cómo Leer Archivo PDF en Java, Figura 3: Leer desde un Nuevo Archivo Leer desde un Nuevo Archivo

IronPDF también se puede usar para extraer imágenes de archivos PDF.

El código completo es el siguiente:

import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import com.ironsoftware.ironpdf.edit.PageSelection;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        // Set the IronPDF license key for commercial use
        License.setLicenseKey("YOUR LICENSE KEY HERE");

        // Read text from a specific page in an existing PDF
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
        String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
        System.out.println(text);

        // Read all text from a PDF generated from a URL
        pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
        text = pdf.extractAllText();
        System.out.println("Text extracted from the website: " + text);
    }
}
import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import com.ironsoftware.ironpdf.edit.PageSelection;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        // Set the IronPDF license key for commercial use
        License.setLicenseKey("YOUR LICENSE KEY HERE");

        // Read text from a specific page in an existing PDF
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
        String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
        System.out.println(text);

        // Read all text from a PDF generated from a URL
        pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
        text = pdf.extractAllText();
        System.out.println("Text extracted from the website: " + text);
    }
}
JAVA

Resumen

Este artículo explicó cómo abrir y leer PDFs en Java usando IronPDF.

IronPDF ayuda a crear fácilmente PDFs desde HTML o URL y convertir desde diferentes formatos de archivo. También ayuda a realizar tareas de PDF de manera rápida y fácil.

Pruebe IronPDF por 30 días con una prueba gratuita y descubra qué tan bien funciona para usted en producción. Explore las opciones de licencia comercial para IronPDF que comienzan solo desde $799.

Preguntas Frecuentes

¿Cómo puedo crear un lector de PDF en Java?

Puede crear un lector de PDF en Java usando IronPDF utilizando el método `fromFile` para cargar documentos PDF y luego usando métodos como `extractAllText` para analizar y manipular el contenido.

¿Cuáles son los pasos para instalar los requisitos previos para usar IronPDF en Java?

Para usar IronPDF en Java, necesita instalar el Java Development Kit (JDK), configurar un Entorno de Desarrollo Integrado (IDE) como Eclipse o IntelliJ, configurar Maven para la gestión de dependencias e incluir la biblioteca de IronPDF en su proyecto.

¿Cómo extraigo texto de un archivo PDF en Java?

Para extraer texto de un archivo PDF en Java usando IronPDF, puede usar el método `extractAllText` para recuperar el texto completo del documento o `extractTextFromPage` para extraer texto de una página específica.

¿Puedo generar un PDF desde una URL en Java?

Sí, con IronPDF, puede generar un PDF desde una URL usando el método `renderUrlAsPdf`, que convierte el contenido web en un formato PDF.

¿IronPDF soporta añadir protección por contraseña a PDFs en Java?

Sí, IronPDF soporta añadir protección por contraseña a PDFs, junto con otras características como la firma digital y la fusión o división de documentos.

¿A qué formatos de archivo puede IronPDF convertir a PDF en Java?

IronPDF puede convertir varios formatos de archivo a PDF, incluyendo HTML y otros formatos de documentos, proporcionando opciones flexibles para la generación y manipulación de PDFs.

¿Hay disponible una versión de prueba para IronPDF en Java?

Sí, IronPDF ofrece una prueba gratuita de 30 días, permitiéndole probar sus características y evaluar su rendimiento en sus aplicaciones Java antes de comprar una licencia.

¿Cómo puedo extraer texto de una página específica en un documento PDF usando una biblioteca Java?

Usando IronPDF, puede extraer texto de una página específica en un PDF empleando el método `extractTextFromPage`, que requiere especificar el número o rango de páginas.

Darrius Serrant
Ingeniero de Software Full Stack (WebOps)

Darrius Serrant tiene una licenciatura en Ciencias de la Computación de la Universidad de Miami y trabaja como Ingeniero de Marketing WebOps Full Stack en Iron Software. Atraído por la programación desde joven, vio la computación como algo misterioso y accesible, convirtiéndolo en el ...

Leer más