import com.ironsoftware.ironpdf.*; import java.io.IOException; import java.nio.file.Paths; // Aplique su clave de licencia License.setLicenseKey("YOUR-LICENSE-KEY"); // Establecer una ruta de registro Settings.setLogPath(Paths.get("C:/tmp/IronPdfEngine.log")); // Renderiza el HTML como un PDF. Almacenado en myPdf como tipo PdfDocument; PdfDocument myPdf = PdfDocument.renderHtmlAsPdf("<h1> ~Hello World~ </h1> Made with IronPDF!"); // Guardar el documento Pdf en un archivo myPdf.saveAs(Paths.get("html_saved.pdf"));

USO DE IRONPDF PARA JAVA

Cómo extraer datos de un PDF en Java

Actualizado 15 de marzo, 2023

1. Introducción

Este artículo le enseñará a utilizar Java para extraer datos de un archivo PDF. La extracción de datos de archivos PDF es una operación típica en el sector informático y suele ser necesaria para diversas aplicaciones, como la elaboración de informes o la gestión de contenidos, entre otras.

En este tutorial, le mostraremos cómo utilizar IronPDF for Java para extraer datos de un archivo PDF. Configurar el entorno, importar la biblioteca, leer el archivo de entrada y extraer los datos necesarios son los pasos que realizaremos. Al final de este artículo sabrá exactamente cómo extraer datos de un archivo PDF con IronPDF for Java.

2. Biblioteca PDF Java IronPDF

IronPDF es una biblioteca de software que ofrece a los desarrolladores la posibilidad de generar, editar y extraer datos de archivos PDF dentro de sus aplicaciones Java. Permite crear PDF a partir de HTML, ASPX, imágenes, etc., así como combinar, dividir y manipular PDF existentes. IronPDF también permite proteger los PDF con contraseña y añadir firmas digitales, entre otras funciones.

IronPDF for Java está desarrollado y mantenido por Iron Software. Una de sus funciones más valoradas es la de extraer texto y datos de archivos PDF, así como de HTML y URL.

3. Requisitos previos

Para utilizar IronPDF para extraer datos de archivos PDF, debe cumplir los siguientes requisitos previos:

Instalación de Java: Asegúrese de que Java está instalado en su sistema y de que su ruta está establecida en las variables de entorno. Si aún no ha instalado Java, consulte este enlace enlace para obtener instrucciones.
Java IDE: Tener un Java IDE como Eclipse o IntelliJ instalado. Puede descargar Eclipse desde enlace e IntelliJ de este enlace.
Biblioteca IronPDF: Descargue y añada la biblioteca IronPDF como dependencia en su proyecto. Visite el Sitio web de IronPDF para obtener instrucciones de configuración.
Instalación de Maven: Maven debe estar instalado e integrado con su IDE antes de iniciar el proceso de conversión de PDF. Consulte enlace para ver un tutorial sobre la instalación e integración de Maven.

4. Instalación de IronPDF for Java

La instalación de IronPDF for Java es fácil y sin complicaciones, siempre que se cumplan todos los requisitos. Esta guía utilizará IntelliJ IDEA de JetBrains para demostrar la instalación y ejecutar código de ejemplo.

Esto es lo que hay que hacer:

Abra IntelliJ IDEA: Inicie JetBrains IntelliJ IDEA en su sistema.

Crear un proyecto Maven: En IntelliJ IDEA, crea un nuevo proyecto Maven. Esto proporcionará un entorno adecuado para la instalación de IronPDF for Java.

Crear un nuevo proyecto IntelliJ Maven

Aparecerá una nueva ventana. Introduzca el nombre del proyecto y haga clic en Finalizar.

Dale a tu nuevo Proyecto Maven un nombre adecuado, y haz click en Finalizar para completar el Asistente de Nuevo Proyecto.

Un nuevo proyecto con un pom.xml se abrirá una vez que haga clic en Finalizar. Esto se utilizará para añadir dependencias IronPDF Java Maven.

El archivo pom.xml

Añada las siguientes dependencias en el archivo pom.xml o puede descargar el archivo JAR de la siguiente dirección enlace.

<dependency>
   <groupId>com.ironsoftware</groupId>
   <artifactId>com.ironsoftware</artifactId>
   <version>2024.7.1</version>
</dependency>

Una vez colocadas las dependencias en el archivo pom.xml, aparecerá un pequeño icono en la esquina superior derecha del archivo.

Haga clic en el icono flotante de Maven que se muestra arriba para instalar las nuevas dependencias de Maven automáticamente.

Instale las dependencias Maven de IronPDF for Java haciendo clic en este botón. Dependiendo de la velocidad de su conexión a Internet, esto sólo le llevará unos minutos.

5. Extraer datos

IronPDF es una biblioteca .NET para crear, editar y extraer datos de documentos PDF. Permite a los desarrolladores extraer texto, imágenes y otros datos de archivos PDF utilizando código C# o VB.NET. Con IronPDF, también puede manipular PDF, como convertir HTML a PDF o añadir marcas de agua o anotaciones a PDF existentes.

5.1. Extraer datos de documentos PDF

Con IronPDF for Java, puede extraer fácilmente datos de texto de documentos PDF. A continuación se muestra el código de ejemplo para extraer datos de un archivo PDF.

El PDF de trabajo del que extraeremos contenido en este tutorial.

import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;

public class main {
    public static void main(String [] args) throws IOException {
   PdfDocument pdf = PdfDocument.fromFile(Paths.get("bussiness plan.pdf"));
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the PDF: " + text);
    }
}

import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;

public class main {
    public static void main(String [] args) throws IOException {
   PdfDocument pdf = PdfDocument.fromFile(Paths.get("bussiness plan.pdf"));
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the PDF: " + text);
    }
}

JAVA

El código fuente produce el resultado que se indica a continuación:

> Text extracted from the PDF:
> 
> CRAFT-ARENA
> 
> Muhammad Waleed Butt
> 
> Hassan Khan
> 
> ABOUT US
> 
> Craft-Arena is a partnershipbased business that will help local crafters of Pakistan to sell their handy crafts at good prices and helps them earn good living.

5.2. Extraer datos de URL

IronPDF for Java convierte la URL a PDF en tiempo de ejecución y extrae texto de ella. En este ejemplo, veremos el código fuente para extraer texto de URLs.

import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;

public class main {
    public static void main(String [] args) throws IOException {
        PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
//  nuevo PDFparser
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the URLs: " + text);
    }
}

import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;

public class main {
    public static void main(String [] args) throws IOException {
        PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
//  nuevo PDFparser
        String text = pdf.extractAllText();
        System.out.println("Text extracted from the URLs: " + text);
    }
}

JAVA

El texto extraído de una página web. Este enfoque combina el renderUrlAsPdf con el método extraerTodoTexto método.

5.3. Extraer datos de datos de tabla

Extraer datos de tablas de un PDF utilizando IronPDF for Java es muy sencillo; todo lo que necesita es un PDF que contenga una tabla, y ejecutar el siguiente código.

Un ejemplo de PDF con una tabla

import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;

public class main {
    public static void main(String [] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
        String text = pdf.extractAllText();
        System.out.print("Text extracted from the Marked tables: " + text);
    }
}

import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;

public class main {
    public static void main(String [] args) throws IOException {
        PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
        String text = pdf.extractAllText();
        System.out.print("Text extracted from the Marked tables: " + text);
    }
}

JAVA

> Test Case Description Expected Result Actual Result Status
> 
> 1 Test login functionality User should be able to log in with valid credentials
> 
> User log in successfully Pass
> 
> 2 Test search functionality Search results should be relevant and accurate
> 
> Search is accurate and provide relevant products Pass
> 
> 3 Test checkout process User should be able to complete a purchase successfully
> 
> User can purchase successfully Pass

6. Conclusión

En conclusión, este tutorial ha demostrado cómo extraer datos, específicamente datos tabulares de un archivo PDF, utilizando IronPDF for Java.

Para más información, consulte el Extraer texto en el sitio web de IronPDF.

IronPDF es una biblioteca con licencia comercial a partir de $749. Sin embargo, puede evaluarlo en producción con un prueba gratuita.

< ANTERIOR
Cómo extraer imágenes de un PDF en Java

SIGUIENTE >
Cómo combinar dos archivos PDF con Java

Instalar con Maven

Versión:2024.7.1

<dependency>
  <groupId>com.ironsoftware</groupId>
  <artifactId>ironpdf</artifactId>
  <version>2024.7.1</version>
</dependency>

¿Ha sido útil esta página?

Únete a nuestro Bug Bounty para conseguir un botín de Iron

¿Listo para empezar? Versión: 2024.7 recién publicada

Ver licencias >

Ejemplos

Cómo extraer datos de un PDF en Java

1. Introducción

2. Biblioteca PDF Java IronPDF

3. Requisitos previos

4. Instalación de IronPDF for Java

5. Extraer datos

5.1. Extraer datos de documentos PDF

5.2. Extraer datos de URL

5.3. Extraer datos de datos de tabla

6. Conclusión

En esta página

¿Ha sido útil esta página?

¿Listo para empezar? Versión: 2024.7 recién publicada

Pruebas en un entorno real

Producto totalmente funcional

Asistencia técnica 24/5

The trial form was submitted
successfully.

Pruebas en un entorno real

Producto totalmente funcional

Asistencia técnica 24/5

The trial form was submitted
successfully.

Pruebas en un entorno real

Producto totalmente funcional

Asistencia técnica 24/5

IronPDF forma parte de IRONSUITE

Cómo extraer datos de un PDF en Java

1. Introducción

2. Biblioteca PDF Java IronPDF

3. Requisitos previos

4. Instalación de IronPDF for Java

5. Extraer datos

5.1. Extraer datos de documentos PDF

5.2. Extraer datos de URL

5.3. Extraer datos de datos de tabla

6. Conclusión

En esta página

¿Ha sido útil esta página?

¿Listo para empezar? Versión: 2024.7 recién publicada

Consigue GRATIS

El formulario de prueba se presentócon éxito.

El formulario de prueba se presentócon éxito.

El formulario de prueba se presentócon éxito.

El formulario de prueba se presentócon éxito.

Pruebas en un entorno real

Producto totalmente funcional

Asistencia técnica 24/5

Consigue gratis Clave de prueba de 30 días al instante.

The trial form was submittedsuccessfully.

El formulario de prueba se presentócon éxito.

Más de 2 millones de ingenieros de todo el mundo confían en nosotros

Pruebas en un entorno real

Producto totalmente funcional

Asistencia técnica 24/5

Consigue gratis Clave de prueba de 30 días al instante.

The trial form was submittedsuccessfully.

El formulario de prueba se presentócon éxito.

Más de 2 millones de ingenieros de todo el mundo confían en nosotros

Pruebas en un entorno real

Producto totalmente funcional

Asistencia técnica 24/5

Consigue gratis Clave de prueba de 30 días al instante.

Más de 2 millones de ingenieros de todo el mundo confían en nosotros

IronPDF forma parte de IRONSUITE

El formulario de prueba se presentó
con éxito.

El formulario de prueba se presentó
con éxito.

El formulario de prueba se presentó
con éxito.

El formulario de prueba se presentó
con éxito.

The trial form was submitted
successfully.

El formulario de prueba se presentó
con éxito.

The trial form was submitted
successfully.

El formulario de prueba se presentó
con éxito.