USO DE IRONPDF PARA JAVA

Cómo analizar archivos PDF en Java (Tutorial para desarrolladores)

Actualizado 8 de mayo, 2023
Compartir:

Formato de documento portátil (PDF) es un formato digital utilizado para enviar datos por Internet. Conserva el formato de los datos y permite a los usuarios controlar mejor el contenido. Es el formato más adecuado para la impresión. Cuando se trabaja en Java, puede surgir la necesidad de leer datos de un archivo PDF en un programa Java, lo que puede ser una tarea tediosa para construir un analizador de PDF y extraer texto de diferentes secciones del PDF. Sin embargo, con la mejora de las tecnologías y la aparición de numerosas bibliotecas, crear un analizador Java de PDF y extraer texto es ahora más fácil.

En este artículo, crearemos un analizador PDF en Java utilizando la librería IronPDF.

IronPDF - Biblioteca PDF Java

IronPDF es una biblioteca PDF de Java que permite crear, leer y manipular documentos PDF con facilidad y precisión. Se basa en el éxito de IronPDF for .NET y ofrece una funcionalidad eficaz en distintas plataformas. IronPDF for Java utiliza el IronPdfEngine, que es rápido y optimizado para el rendimiento.

Con IronPDF, puede analizar páginas PDF y extraer texto, imágenes y otros objetos de archivos PDF. También permite la creación de PDF a partir de cadenas HTML, archivos, URL e imágenes, así como la conversión entre distintos formatos de archivo. Además, puede añadir fácilmente nuevos contenidos, sellar firmas y añadir metadatos a los documentos PDF existentes. IronPDF está diseñado específicamente para Java 8+, Scala y Kotlin, y es compatible con plataformas Windows, Linux y Cloud.

Programa para crear un analizador de archivos PDF con IronPDF en Java

Requisitos previos

Para realizar un proyecto de análisis de PDF en Java, necesitará las siguientes herramientas:

  1. IDE Java: Puede utilizar cualquier IDE compatible con Java. Hay múltiples IDEs JAVA disponibles para el desarrollo. Aquí utilizaremos IDE IntelliJ. Puedes utilizar NetBeans, Eclipse, etc.
  2. Proyecto Maven: Maven es un gestor de dependencias y permite controlar el proyecto Java. Maven para Java puede descargarse de aquí. IntelliJ JAVA IDE ha incorporado soporte para Maven.
  3. IronPDF - Puede descargar e instalar IronPDF for Java de varias maneras.
    • Añadir la dependencia IronPDF en el archivo pom.xml en un proyecto Maven.
        :ProductInstall
  • Visite el sitio web de Maven y descargue el último paquete IronPDF for Java, que puede descargarse aquí.
    • Una descarga directa desde el sitio web de IronPDF a través de este enlace.
    • Instale manualmente IronPDF utilizando el archivo JAR en su aplicación Java simple.
      1. SLF4J-Simple: Esta dependencia también es necesaria para estampar contenido a un documento existente. Se puede añadir utilizando el gestor de dependencias de Maven en IntelliJ, o se puede descargar directamente desde el sitio web de Maven. Añade la siguiente dependencia al archivo pom.xml:
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-simple</artifactId>
        <version>2.0.5</version>
    </dependency>
XML

Añadir las importaciones necesarias

Una vez instalados todos los requisitos previos, tenemos que importar los paquetes IronPDF necesarios para trabajar con un documento PDF. Añade el siguiente código en la parte superior del archivo Main.java:

import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
JAVA

Clave de licencia

Algunos métodos disponibles en IronPDF requieren una licencia para ser utilizados. Puede adquirir una licencia o probar IronPDF en una versión de prueba gratuita. Puede configurar la tecla de la siguiente manera:

License.setLicenseKey("YOUR-KEY");
JAVA

Paso 1: Analizar un documento PDF existente

Para analizar un documento existente y extraer su contenido, se utiliza la clase PdfDocument. Su método estático fromFile se utiliza para analizar un archivo PDF desde una ruta específica con un nombre de archivo específico en un programa Java. El código es el siguiente:

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
JAVA

Cómo analizar PDF en Java (Tutorial para desarrolladores): Figura 1 - Documento analizado

Paso 2: Extraer datos de texto del archivo PDF analizado

IronPDF for Java proporciona un método sencillo para extracción de texto de documentos PDF. El siguiente fragmento de código es para extraer datos de texto de un archivo PDF está por debajo:

String extracted_text = parsedDocument.extractAllText();
JAVA

El código anterior produce el resultado que se indica a continuación:

Cómo analizar PDF en Java (Tutorial para desarrolladores): Figura 2 - Salida

Paso 3: Extraer datos de texto de URLs o cadenas HTML

La capacidad de IronPDF for Java no sólo se limita a los PDF existentes, sino que también puede crear y analizar un nuevo archivo para extraer el contenido. Aquí crearemos un Archivo PDF desde URL y luego extraer contenido de ella. El siguiente ejemplo muestra cómo realizar esta tarea:

public class Main {
    public static void main(String [] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        String extracted_text = parsedDocument.extractAllText();
        System.out.println("Text Extracted from URL:\n" + extracted_text);
    }
}
JAVA

El resultado es el siguiente:

Cómo analizar PDF en Java (Tutorial para desarrolladores): Figura 3 - Salida

Paso 4: Extraer imágenes del documento PDF analizado

IronPDF también ofrece una opción sencilla para extraer todas las imágenes del documento analizado. Aquí utilizaremos el ejemplo anterior para ver con qué facilidad se extraen las imágenes de los archivos PDF.

public static void main(String [] args) throws IOException {
    License.setLicenseKey("YOUR-KEY");

    PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

    try {
        List images = parsedDocument.extractAllImages();
        System.out.println("Number of images extracted from the website: " + images.size());

        int i = 0;
        for (BufferedImage image : images) {
            ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
        }
    } catch(Exception exception) {
        System.out.println("Failed to extract images from the website");
        exception.printStackTrace();
    }
}
JAVA

El método extractAllImages devuelve una lista de BufferedImages. Cada BufferedImage puede entonces almacenarse como imágenes PNG en una ubicación utilizando el método ImageIO.write. Hay 34 imágenes en el archivo PDF analizado y cada imagen está perfectamente extraída.

Cómo analizar PDF en Java (Tutorial para desarrolladores): Figura 4 - Imágenes extraídas

Paso 5: Extraer datos de la tabla en archivos PDF

Extraer el contenido de los límites tabulares de un archivo PDF es muy fácil con sólo una línea de código utilizando el método extractAllText. El siguiente fragmento de código muestra cómo extraer texto de una tabla en un archivo PDF:

Cómo analizar PDF en Java (Tutorial para desarrolladores): Figura 5 - Tabla en PDF

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extracted_text = parsedDocument.extractAllText();
System.out.println(extracted_text);
JAVA

El resultado es el siguiente:

Cómo analizar PDF en Java (Tutorial para desarrolladores): Figura 6 - Salida

6. Conclusión

En este artículo, hemos aprendido cómo analizar un documento PDF existente o crear un nuevo archivo PDF parser de una URL para extraer datos de ella en Java utilizando IronPDF. Después de abrir el archivo, podemos extraer datos tabulares, imágenes y texto del PDF. También podemos añadir el texto extraído a un archivo de texto para su uso posterior.

Para obtener información más detallada sobre cómo trabajar con archivos PDF mediante programación en Java, visite este enlace enlace.

La biblioteca IronPDF for Java es gratuita para fines de desarrollo con un prueba gratuita. Sin embargo, para uso comercial puede ser con licencia a partir de $749.

< ANTERIOR
Trabajar con proyectos Maven en IntelliJ
SIGUIENTE >
Cómo generar informes PDF en Java

¿Listo para empezar? Versión: 2024.3 recién publicada

Descarga gratuita de Maven Ver licencias >