USO DE IRONPDF FOR JAVA

Cómo extraer datos de un PDF en Java

Actualizado 1 de septiembre, 2024
Compartir:

Este tutorial te mostrará cómo usar IronPDF for Java para extraer datos de un archivo PDF. La configuración del entorno, la importación de la biblioteca, la lectura del archivo de entrada y la extracción de los datos necesarios se explican con ejemplos de código.

2. Biblioteca PDF Java IronPDF

IronPDF es una biblioteca de software que ofrece a los desarrolladores la capacidad de generar, editar y extraer datos de archivos PDF dentro de sus aplicaciones Java. Le permite crear PDF a partir de HTML, imágenes y más, así como fusionar, dividiry manipular PDFs existentes. IronPDF también ofrece la capacidad de proteger PDFs con protección por contraseña y añadir firmas digitales, entre otras características.

IronPDF for Java está desarrollado y mantenido por Iron Software. Una de sus funciones más valoradas es la de extraer texto y datos de archivos PDF, así como de HTML y URL.

3. Requisitos previos

Para utilizar IronPDF para extraer datos de archivos PDF, debe cumplir los siguientes requisitos previos:

  1. Instalación de Java: Asegúrese de que Java está instalado en su sistema y de que su ruta está establecida en las variables de entorno. Si aún no ha instalado Java, consulte este enlace enlace de descarga desde el sitio web de Java para obtener instrucciones.

  2. Java IDE: Tener un Java IDE como Eclipse o IntelliJ instalado. Puede descargar Eclipse desde enlace de descarga e IntelliJ de este enlace de descarga.

  3. Biblioteca IronPDF: Descargue y añada la biblioteca IronPDF como dependencia en su proyecto. Visite el Sitio web de IronPDF para obtener instrucciones de configuración.

  4. Instalación de Maven: Maven debe estar instalado e integrado con tu IDE antes de comenzar el proceso de conversión de PDF. Consulte tutorial de instalación sobre la instalación y la integración de Maven.

4. Instalación de IronPDF for Java

La instalación de IronPDF for Java es fácil y sin complicaciones, siempre que se cumplan todos los requisitos. Esta guía utilizará IntelliJ IDEA de JetBrains para demostrar la instalación y ejecutar código de ejemplo.

Esto es lo que hay que hacer:

Abra IntelliJ IDEA: Inicie JetBrains IntelliJ IDEA en su sistema.

Crear un proyecto Maven: En IntelliJ IDEA, crea un nuevo proyecto Maven. Esto proporcionará un entorno adecuado para la instalación de IronPDF for Java.

Cómo extraer datos de PDF en Java, Figura 1: Nuevo proyecto Maven en IntelliJ

Nuevo proyecto Maven en IntelliJ

Aparecerá una nueva ventana. Introduzca el nombre del proyecto y haga clic en Finalizar.

Cómo extraer datos del PDF en Java, Figura 2: Nombra el proyecto Maven y haz clic en Finalizar

Nombra el proyecto Maven y haz clic en Finalizar

Un nuevo proyecto con un pom.xml se abrirá una vez que haga clic en Finalizar. Esto se utilizará para añadir dependencias IronPDF Java Maven.

Cómo extraer datos de PDF en Java, Figura 3: El archivo pom.xml

El archivo pom.xml

Añade las siguientes dependencias en el archivo pom.xml o puedes descargar el archivo JAR del siguiente enlace.

<dependency>
   <groupId>com.ironsoftware</groupId>
   <artifactId>com.ironsoftware</artifactId>
   <version>2024.9.1</version>
</dependency>

Una vez que hayas colocado las dependencias en el archivo pom.xml, aparecerá un pequeño icono en la esquina superior derecha del archivo.

Cómo extraer datos de un PDF en Java, Figura 4: Haga clic en el icono flotante para instalar las dependencias de Maven automáticamente

Haga clic en el icono flotante para instalar las dependencias de Maven automáticamente

Instale las dependencias Maven de IronPDF for Java haciendo clic en este botón. Dependiendo de la velocidad de su conexión a Internet, esto sólo le llevará unos minutos.

5. Extraer datos

IronPDF es una biblioteca de Java para crear, editar y extraer datos de documentos PDF. Proporciona una API simple para extraer texto de archivos PDF, URLs y tablas.

5.1. Extraer datos de documentos PDF

Con IronPDF for Java, puede extraer fácilmente datos de texto de documentos PDF. A continuación se muestra el código de ejemplo para extraer datos de un archivo PDF.

Cómo extraer datos de PDF en Java, Figura 5: Entrada de PDF

PDF Input

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the PDF: " + text);
    }
}
JAVA

El código fuente produce el resultado que se indica a continuación:

> Text extracted from the PDF:
> 
> CRAFT-ARENA
> 
> Muhammad Waleed Butt
> 
> Hassan Khan
> 
> ABOUT US
> 
> Craft-Arena is a partnership￾based business that will help local crafters of Pakistan to sell their handy crafts at good prices and helps them earn good living.

5.2. Extraer datos de URL

IronPDF for Java convierte la URL a PDF en tiempo de ejecución y extrae texto de ella. Este ejemplo mostrará el código fuente para extraer texto de URLs.

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        // new PDF parser
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the URLs: " + text);
    }
}
JAVA

Cómo extraer datos de PDF en Java, Figura 6: Datos extraídos de la página web

Datos extraídos de la página web

5.3. Extraer datos de datos de tabla

Extraer datos de tablas de un PDF utilizando IronPDF for Java es muy sencillo; todo lo que necesita es un PDF que contenga una tabla, y ejecutar el siguiente código.

Cómo extraer datos de PDF en Java, Figura 7: Ejemplo de tabla de entrada en PDF

Tabla de entrada de muestra de PDF

import com.ironsoftware.ironpdf.PdfDocument;

import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String[] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
        String text = pdf.extractAllText();
        System.out.print("Text extracted from the Marked tables: " + text);
    }
}
JAVA
> Test Case Description Expected Result Actual Result Status
> 
> 1 Test login functionality User should be able to log in with valid credentials
> 
> User log in successfully Pass
> 
> 2 Test search functionality Search results should be relevant and accurate
> 
> Search is accurate and provide relevant products Pass
> 
> 3 Test checkout process User should be able to complete a purchase successfully
> 
> User can purchase successfully Pass

6. Conclusión

En conclusión, este tutorial ha demostrado cómo extraer datos, específicamente datos tabulares de un archivo PDF, utilizando IronPDF for Java.

Para más información, consulte el ejemplo de extracción de texto en el sitio web de IronPDF.

IronPDF es una biblioteca con licencia comerciala partir de $749. Sin embargo, puede evaluarlo en producción con un prueba gratuita.

< ANTERIOR
Cómo extraer imágenes de un PDF en Java
SIGUIENTE >
Cómo combinar dos archivos PDF con Java

¿Listo para empezar? Versión: 2024.9 acaba de salir

Descarga gratuita de Maven Ver licencias >