USO DE IRONPDF FOR JAVA

Cómo leer archivos PDF en Java

Kannaopat Udonpant
Kannapat Udonpant
26 de febrero, 2023
Actualizado 1 de septiembre, 2024
Compartir:

Este artículo explorará cómo crear un lector de PDF para abrir un archivo PDF en su aplicación de software programáticamente. Para realizar esta tarea con eficacia, IronPDF for Java es una de esas bibliotecas de sistema que ayuda a abrir y leer archivos PDF utilizando el nombre de archivo en programas Java.

IronPDF

La IronPDF - Biblioteca Java se construye sobre el ya exitoso .NET Framework. Esto convierte a IronPDF en una herramienta versátil para trabajar con documentos PDF en comparación con otras bibliotecas de clases como Apache PDFBox. Proporciona la facilidad de extraer y analizar contenido, cargar texto y cargar imágenes. También ofrece opciones para personalizar las páginas PDF, como el diseño de página, márgenes, encabezado y pie de página, orientación de la página y mucho más.

Además de esto, IronPDF también admite la conversión desde otros formatos de archivo, la protección de PDFs con una contraseña, la firma digital, la fusión y la división de documentos PDF.

Cómo leer archivos PDF en Java

Requisitos previos

Para usar IronPDF para crear un lector de PDF en Java, es necesario asegurarse de que los siguientes componentes estén instalados en el ordenador:

  1. JDK - Se requiere el Kit de Desarrollo de Java para construir y ejecutar programas Java. Si no está instalado, descárguelo desde el sitio web de Oracle.

  2. IDE - Un Entorno de Desarrollo Integrado es un software que ayuda a escribir, editar y depurar un programa. Descarga cualquier IDE para Java, por ejemplo, Eclipse, NetBeans, IntelliJ.

  3. Maven - Maven es una herramienta de automatización que ayuda a descargar bibliotecas del Repositorio Central. Descárgalo desde el sitio web de Apache Maven.

  4. IronPDF - Finalmente, se requiere IronPDF para leer el archivo PDF en Java. Debe añadirse como dependencia en su proyecto Java Maven. Incluye el artefacto de IronPDF junto con la dependencia slf4j en el archivo pom.xml como se muestra en el ejemplo a continuación:
<dependency>
   <groupId>com.ironsoftware</groupId>
   <artifactId>com.ironsoftware</artifactId>
   <version>2025.3.6</version>
</dependency>

Añadir importaciones necesarias

En primer lugar, añada el siguiente código en la parte superior del archivo fuente Java para hacer referencia a todos los métodos necesarios de IronPDF. Importar org es opcional en este ejemplo.

import com.ironsoftware.ironpdf.*;
JAVA

A continuación, configure IronPDF con una clave de licencia válida para utilizar su método. Invocar el método setLicenseKey en el método principal.

License.setLicenseKey("Your license key");
JAVA

Nota: Puedes obtener una clave de licencia de prueba gratuita para crear, leer e imprimir PDFs.

Leer archivo PDF existente en Java

Para leer archivos PDF, debe haber archivos PDF o se puede crear uno. Este artículo utilizará un archivo PDF ya creado. El código es simple y un proceso de dos pasos para extraer texto del documento.

PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractAllText();
System.out.println(text);
JAVA

En el código anterior, fromFile abre un documento PDF. El método Paths.get obtiene el directorio del archivo y está listo para extraer contenido del archivo. Luego, [extractAllText](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()) lee todo el texto del documento.

El resultado es el siguiente:

Cómo Leer un Archivo PDF en Java, Figura 1: Lectura del Texto del PDF Salida

Lectura del texto de salida del PDF

Leer texto de una página específica

IronPDF también puede leer el contenido de una página específica de un PDF. El método extractTextFromPage utiliza un objeto PageSelection para aceptar un rango de página(s) del cual se leerá el texto.

En el siguiente ejemplo, el texto se extrae de la segunda página del documento PDF. PageSelection.singlePage toma el índice de la página que necesita ser extraída.

PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
System.out.println(text);
JAVA

Cómo leer archivos PDF en Java, Figura 2: Lectura de salida de texto PDF

Lectura del texto de salida del PDF

Otros métodos disponibles en la clase PageSelection que pueden usarse para extraer texto de varias páginas incluyen: [firstPage](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#lastPage(), [lastPage](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#firstPage(), [pageRange](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#pageRange(int,int), y [allPages](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#allPages().

Leer texto de un archivo PDF recién generado

La búsqueda de texto también se puede realizar desde un archivo PDF recién generado a partir de un archivo HTML o URL. El siguiente código de ejemplo genera PDF a partir de URL y extrae todo el texto del sitio web.

PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
String text = pdf.extractAllText();
System.out.println("Text extracted from the website: " + text);
JAVA

Cómo leer un archivo PDF en Java, Figura 2: Leer desde un archivo nuevo

Leer desde un archivo nuevo

IronPDF también se puede usar para extraer imágenes de archivos PDF.

El código completo es el siguiente:

import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import com.ironsoftware.ironpdf.edit.PageSelection;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {

        License.setLicenseKey("YOUR LICENSE KEY HERE");

        PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
        String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
        System.out.println(text);

        pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
        text = pdf.extractAllText();
        System.out.println("Text extracted from the website: " + text);

    }
}
JAVA

Resumen

Este artículo explicó cómo abrir y leer PDFs en Java utilizando IronPDF.

IronPDF ayuda a crear fácilmente archivos PDF a partir de HTML o URL y a convertirlos a partir de diferentes formatos de archivo. También ayuda a realizar tareas en PDF de forma rápida y sencilla.

Pruebe IronPDF durante 30 días con una prueba gratuita y descubra qué tan bien funciona para usted en producción. Explore las opciones de licencia comercial para IronPDF que comienzan solo desde $749.

Kannaopat Udonpant
Ingeniero de software
Antes de convertirse en ingeniero de software, Kannapat realizó un doctorado en Recursos Medioambientales en la Universidad de Hokkaido (Japón). Mientras cursaba su licenciatura, Kannapat también se convirtió en miembro del Laboratorio de Robótica Vehicular, que forma parte del Departamento de Ingeniería de Bioproducción. En 2022, aprovechó sus conocimientos de C# para unirse al equipo de ingeniería de Iron Software, donde se centra en IronPDF. Kannapat valora su trabajo porque aprende directamente del desarrollador que escribe la mayor parte del código utilizado en IronPDF. Además del aprendizaje entre iguales, Kannapat disfruta del aspecto social de trabajar en Iron Software. Cuando no está escribiendo código o documentación, Kannapat suele jugar con su PS5 o volver a ver The Last of Us.
< ANTERIOR
Cómo dividir archivos PDF en Java
SIGUIENTE >
HTML2PDF Java (Tutorial de ejemplo de código)