import com.ironsoftware.ironpdf.*; import java.io.IOException; import java.nio.file.Paths; // Aplique su clave de licencia License.setLicenseKey("YOUR-LICENSE-KEY"); // Establecer una ruta de registro Settings.setLogPath(Paths.get("C:/tmp/IronPdfEngine.log")); // Renderiza el HTML como un PDF. Almacenado en myPdf como tipo PdfDocument; PdfDocument myPdf = PdfDocument.renderHtmlAsPdf("<h1> ~Hello World~ </h1> Made with IronPDF!"); // Guardar el documento Pdf en un archivo myPdf.saveAs(Paths.get("html_saved.pdf"));

USO DE IRONPDF PARA JAVA

Cómo analizar archivos PDF en Java (Tutorial para desarrolladores)

Actualizado 8 de mayo, 2023

Formato de documento portátil (PDF) es un formato digital utilizado para enviar datos por Internet. Conserva el formato de los datos y permite a los usuarios controlar mejor el contenido. Es el formato más adecuado para la impresión. Cuando se trabaja en Java, puede surgir la necesidad de leer datos de un archivo PDF en un programa Java, lo que puede ser una tarea tediosa para construir un analizador de PDF y extraer texto de diferentes secciones del PDF. Sin embargo, con la mejora de las tecnologías y la aparición de numerosas bibliotecas, crear un analizador Java de PDF y extraer texto es ahora más fácil.

En este artículo, crearemos un analizador PDF en Java utilizando la librería IronPDF.

IronPDF - Biblioteca PDF Java

IronPDF es una biblioteca PDF de Java que permite crear, leer y manipular documentos PDF con facilidad y precisión. Se basa en el éxito de IronPDF for .NET y ofrece una funcionalidad eficaz en distintas plataformas. IronPDF for Java utiliza el IronPdfEngine, que es rápido y optimizado para el rendimiento.

Con IronPDF, puede analizar páginas PDF y extraer texto, imágenes y otros objetos de archivos PDF. También permite la creación de PDF a partir de cadenas HTML, archivos, URL e imágenes, así como la conversión entre distintos formatos de archivo. Además, puede añadir fácilmente nuevos contenidos, sellar firmas y añadir metadatos a los documentos PDF existentes. IronPDF está diseñado específicamente para Java 8+, Scala y Kotlin, y es compatible con plataformas Windows, Linux y Cloud.

Cómo analizar un archivo PDF en Java

Descargar la biblioteca Java para analizar un archivo PDF
Cargar un documento PDF existente mediante la función fromArchivo método
Extraer todo el texto del PDF analizado mediante la función extraerTodoTexto método
Utiliza el renderUrlAsPdf método to render a PDF from a URL
Extraer imágenes del PDF analizado mediante la función extractAllImages método

Programa para crear un analizador de archivos PDF con IronPDF en Java

Requisitos previos

Para realizar un proyecto de análisis de PDF en Java, necesitará las siguientes herramientas:

IDE Java: Puede utilizar cualquier IDE compatible con Java. Hay múltiples IDEs JAVA disponibles para el desarrollo. Aquí utilizaremos IDE IntelliJ. Puedes utilizar NetBeans, Eclipse, etc.
Proyecto Maven: Maven es un gestor de dependencias y permite controlar el proyecto Java. Maven para Java puede descargarse de aquí. IntelliJ JAVA IDE ha incorporado soporte para Maven.
IronPDF - Puede descargar e instalar IronPDF for Java de varias maneras.
- Añadir la dependencia IronPDF en el archivo pom.xml en un proyecto Maven.

        :ProductInstall

Visite el sitio web de Maven y descargue el último paquete IronPDF for Java, que puede descargarse aquí.
- Una descarga directa desde el sitio web de IronPDF a través de este enlace.
- Instale manualmente IronPDF utilizando el archivo JAR en su aplicación Java simple.
  1. SLF4J-Simple: Esta dependencia también es necesaria para estampar contenido a un documento existente. Se puede añadir utilizando el gestor de dependencias de Maven en IntelliJ, o se puede descargar directamente desde el sitio web de Maven. Añade la siguiente dependencia al archivo pom.xml:

    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-simple</artifactId>
        <version>2.0.5</version>
    </dependency>

    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-simple</artifactId>
        <version>2.0.5</version>
    </dependency>

XML

Añadir las importaciones necesarias

Una vez instalados todos los requisitos previos, tenemos que importar los paquetes IronPDF necesarios para trabajar con un documento PDF. Añade el siguiente código en la parte superior del archivo Main.java:

import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;

import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;

JAVA

Clave de licencia

Algunos métodos disponibles en IronPDF requieren una licencia para ser utilizados. Puede adquirir una licencia o probar IronPDF en una versión de prueba gratuita. Puede configurar la tecla de la siguiente manera:

License.setLicenseKey("YOUR-KEY");

License.setLicenseKey("YOUR-KEY");

JAVA

Paso 1: Analizar un documento PDF existente

Para analizar un documento existente y extraer su contenido, se utiliza la clase PdfDocument. Su método estático fromFile se utiliza para analizar un archivo PDF desde una ruta específica con un nombre de archivo específico en un programa Java. El código es el siguiente:

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));

JAVA

Cómo analizar PDF en Java (Tutorial para desarrolladores): Figura 1 - Documento analizado

Paso 2: Extraer datos de texto del archivo PDF analizado

IronPDF for Java proporciona un método sencillo para extracción de texto de documentos PDF. El siguiente fragmento de código es para extraer datos de texto de un archivo PDF está por debajo:

String extracted_text = parsedDocument.extractAllText();

String extracted_text = parsedDocument.extractAllText();

JAVA

El código anterior produce el resultado que se indica a continuación:

Cómo analizar PDF en Java (Tutorial para desarrolladores): Figura 2 - Salida

Paso 3: Extraer datos de texto de URLs o cadenas HTML

La capacidad de IronPDF for Java no sólo se limita a los PDF existentes, sino que también puede crear y analizar un nuevo archivo para extraer el contenido. Aquí crearemos un Archivo PDF desde URL y luego extraer contenido de ella. El siguiente ejemplo muestra cómo realizar esta tarea:

public class Main {
    public static void main(String [] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        String extracted_text = parsedDocument.extractAllText();
        System.out.println("Text Extracted from URL:\n" + extracted_text);
    }
}

public class Main {
    public static void main(String [] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        String extracted_text = parsedDocument.extractAllText();
        System.out.println("Text Extracted from URL:\n" + extracted_text);
    }
}

JAVA

El resultado es el siguiente:

Cómo analizar PDF en Java (Tutorial para desarrolladores): Figura 3 - Salida

Paso 4: Extraer imágenes del documento PDF analizado

IronPDF también ofrece una opción sencilla para extraer todas las imágenes del documento analizado. Aquí utilizaremos el ejemplo anterior para ver con qué facilidad se extraen las imágenes de los archivos PDF.

public static void main(String [] args) throws IOException {
    License.setLicenseKey("YOUR-KEY");

    PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

    try {
        List images = parsedDocument.extractAllImages();
        System.out.println("Number of images extracted from the website: " + images.size());

        int i = 0;
        for (BufferedImage image : images) {
            ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
        }
    } catch(Exception exception) {
        System.out.println("Failed to extract images from the website");
        exception.printStackTrace();
    }
}

public static void main(String [] args) throws IOException {
    License.setLicenseKey("YOUR-KEY");

    PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

    try {
        List images = parsedDocument.extractAllImages();
        System.out.println("Number of images extracted from the website: " + images.size());

        int i = 0;
        for (BufferedImage image : images) {
            ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
        }
    } catch(Exception exception) {
        System.out.println("Failed to extract images from the website");
        exception.printStackTrace();
    }
}

JAVA

El método extractAllImages devuelve una lista de BufferedImages. Cada BufferedImage puede entonces almacenarse como imágenes PNG en una ubicación utilizando el método ImageIO.write. Hay 34 imágenes en el archivo PDF analizado y cada imagen está perfectamente extraída.

Cómo analizar PDF en Java (Tutorial para desarrolladores): Figura 4 - Imágenes extraídas

Paso 5: Extraer datos de la tabla en archivos PDF

Extraer el contenido de los límites tabulares de un archivo PDF es muy fácil con sólo una línea de código utilizando el método extractAllText. El siguiente fragmento de código muestra cómo extraer texto de una tabla en un archivo PDF:

Cómo analizar PDF en Java (Tutorial para desarrolladores): Figura 5 - Tabla en PDF

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extracted_text = parsedDocument.extractAllText();
System.out.println(extracted_text);

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extracted_text = parsedDocument.extractAllText();
System.out.println(extracted_text);

JAVA

El resultado es el siguiente:

Cómo analizar PDF en Java (Tutorial para desarrolladores): Figura 6 - Salida

6. Conclusión

En este artículo, hemos aprendido cómo analizar un documento PDF existente o crear un nuevo archivo PDF parser de una URL para extraer datos de ella en Java utilizando IronPDF. Después de abrir el archivo, podemos extraer datos tabulares, imágenes y texto del PDF. También podemos añadir el texto extraído a un archivo de texto para su uso posterior.

Para obtener información más detallada sobre cómo trabajar con archivos PDF mediante programación en Java, visite este enlace enlace.

La biblioteca IronPDF for Java es gratuita para fines de desarrollo con un prueba gratuita. Sin embargo, para uso comercial puede ser con licencia a partir de $749.

< ANTERIOR
Trabajar con proyectos Maven en IntelliJ

SIGUIENTE >
Cómo generar informes PDF en Java

En esta página

IronPDF - Biblioteca PDF Java
Programa para crear un analizador de archivos PDF con IronPDF en Java
6. Conclusión

Instalar con Maven

Versión:2024.7.1

<dependency>
  <groupId>com.ironsoftware</groupId>
  <artifactId>ironpdf</artifactId>
  <version>2024.7.1</version>
</dependency>

¿Ha sido útil esta página?

Únete a nuestro Bug Bounty para conseguir un botín de Iron

¿Listo para empezar? Versión: 2024.7 recién publicada

Ver licencias >

Ejemplos

Cómo analizar archivos PDF en Java (Tutorial para desarrolladores)

IronPDF - Biblioteca PDF Java

Cómo analizar un archivo PDF en Java

Programa para crear un analizador de archivos PDF con IronPDF en Java

Requisitos previos

Añadir las importaciones necesarias

Clave de licencia

Paso 1: Analizar un documento PDF existente

Paso 2: Extraer datos de texto del archivo PDF analizado

Paso 3: Extraer datos de texto de URLs o cadenas HTML

Paso 4: Extraer imágenes del documento PDF analizado

Paso 5: Extraer datos de la tabla en archivos PDF

6. Conclusión

En esta página

¿Ha sido útil esta página?

¿Listo para empezar? Versión: 2024.7 recién publicada

Pruebas en un entorno real

Producto totalmente funcional

Asistencia técnica 24/5

The trial form was submitted
successfully.

Pruebas en un entorno real

Producto totalmente funcional

Asistencia técnica 24/5

The trial form was submitted
successfully.

Pruebas en un entorno real

Producto totalmente funcional

Asistencia técnica 24/5

IronPDF forma parte de IRONSUITE

Cómo analizar archivos PDF en Java (Tutorial para desarrolladores)

IronPDF - Biblioteca PDF Java

Cómo analizar un archivo PDF en Java

Programa para crear un analizador de archivos PDF con IronPDF en Java

Requisitos previos

Añadir las importaciones necesarias

Clave de licencia

Paso 1: Analizar un documento PDF existente

Paso 2: Extraer datos de texto del archivo PDF analizado

Paso 3: Extraer datos de texto de URLs o cadenas HTML

Paso 4: Extraer imágenes del documento PDF analizado

Paso 5: Extraer datos de la tabla en archivos PDF

6. Conclusión

En esta página

¿Ha sido útil esta página?

¿Listo para empezar? Versión: 2024.7 recién publicada

Consigue GRATIS

El formulario de prueba se presentócon éxito.

El formulario de prueba se presentócon éxito.

El formulario de prueba se presentócon éxito.

El formulario de prueba se presentócon éxito.

Pruebas en un entorno real

Producto totalmente funcional

Asistencia técnica 24/5

Consigue gratis Clave de prueba de 30 días al instante.

The trial form was submittedsuccessfully.

El formulario de prueba se presentócon éxito.

Más de 2 millones de ingenieros de todo el mundo confían en nosotros

Pruebas en un entorno real

Producto totalmente funcional

Asistencia técnica 24/5

Consigue gratis Clave de prueba de 30 días al instante.

The trial form was submittedsuccessfully.

El formulario de prueba se presentócon éxito.

Más de 2 millones de ingenieros de todo el mundo confían en nosotros

Pruebas en un entorno real

Producto totalmente funcional

Asistencia técnica 24/5

Consigue gratis Clave de prueba de 30 días al instante.

Más de 2 millones de ingenieros de todo el mundo confían en nosotros

IronPDF forma parte de IRONSUITE

El formulario de prueba se presentó
con éxito.

El formulario de prueba se presentó
con éxito.

El formulario de prueba se presentó
con éxito.

El formulario de prueba se presentó
con éxito.

The trial form was submitted
successfully.

El formulario de prueba se presentó
con éxito.

The trial form was submitted
successfully.

El formulario de prueba se presentó
con éxito.