Pruebe en producción sin marcas de agua.
Funciona donde lo necesite.
Obtén 30 días de producto totalmente funcional.
Ténlo en funcionamiento en minutos.
Acceso completo a nuestro equipo de asistencia técnica durante la prueba del producto
Este tutorial le mostrará cómo usar IronPDF for Java para extraer datos de un archivo PDF. Se explica cómo configurar el entorno, importar la biblioteca, leer el archivo de entrada y extraer los datos necesarios con ejemplos de código.
IronPDF es una biblioteca de software que proporciona a los desarrolladores la capacidad de generar, editar y extraer datos de archivos PDF usando IronPDF for Java dentro de sus aplicaciones Java. Le permite crear PDFs a partir de documentos HTML, imágenes y más, así como combinar múltiples PDFs, dividir archivos PDF y manipular PDFs existentes. IronPDF también ofrece la capacidad de asegurar PDFs con funciones de protección con contraseña y agregar firmas digitales a PDFs, entre otras características.
IronPDF for Java está desarrollado y mantenido por Iron Software. Una de sus funciones más valoradas es la de extraer texto y datos de archivos PDF, así como de HTML y URL.
Para utilizar IronPDF para extraer datos de archivos PDF, debe cumplir los siguientes requisitos previos:
Instalación de Java: Asegúrese de que Java esté instalado en su sistema y que su ruta esté configurada en las variables de entorno. Si aún no has instalado Java, consulta esta página de descarga en el sitio web de Java para obtener instrucciones.
Java IDE: Ten un IDE de Java como Eclipse o IntelliJ instalado. Puedes descargar Eclipse desde esta página de descarga de Eclipse y IntelliJ desde esta página de descarga de IntelliJ.
Biblioteca IronPDF: Descarga y añade la biblioteca IronPDF como una dependencia en tu proyecto. Visite la página de instrucciones de configuración de IronPDF para obtener instrucciones de configuración.
La instalación de IronPDF for Java es fácil y sin complicaciones, siempre que se cumplan todos los requisitos. Esta guía utilizará IntelliJ IDEA de JetBrains para demostrar la instalación y ejecutar código de ejemplo.
Esto es lo que hay que hacer:
Abra IntelliJ IDEA: Inicie JetBrains IntelliJ IDEA en su sistema.
Crear un proyecto Maven: En IntelliJ IDEA, crea un nuevo proyecto Maven. Esto proporcionará un entorno adecuado para la instalación de IronPDF for Java.
Nuevo proyecto Maven en IntelliJ
Aparecerá una nueva ventana. Introduzca el nombre del proyecto y haga clic en Finalizar.
Asigna un nombre al proyecto Maven y haz clic en Finalizar
Un nuevo proyecto con un pom.xml se abrirá una vez que haga clic en Finalizar. Esto se utilizará para añadir dependencias IronPDF Java Maven.
El archivo pom.xml
Agregue las siguientes dependencias en el archivo pom.xml
o puede descargar el archivo JAR desde la página de la biblioteca IronPDF en Sonatype Central.
<dependency>
<groupId>com.ironsoftware</groupId>
<artifactId>com.ironsoftware</artifactId>
<version>2025.4.4</version>
</dependency>
Una vez que coloques las dependencias en el archivo pom.xml
, aparecerá un pequeño icono en la esquina superior derecha del archivo.
Haga clic en el icono flotante para instalar automáticamente las dependencias de Maven
Instale las dependencias Maven de IronPDF for Java haciendo clic en este botón. Dependiendo de la velocidad de su conexión a Internet, esto sólo le llevará unos minutos.
IronPDF es una biblioteca de Java para crear, editar y extraer datos de documentos PDF. Proporciona una API simple para extraer texto de archivos PDF, URLs y tablas.
Con IronPDF for Java, puede extraer fácilmente datos de texto de documentos PDF. A continuación se muestra el código de ejemplo para extraer datos de un archivo PDF.
Entrada de PDF
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("business plan.pdf"));
String text = pdf.extractAllText();
System.out.println("Text extracted from the PDF: " + text);
}
}
El código fuente produce el resultado que se indica a continuación:
> Text extracted from the PDF:
>
> CRAFT-ARENA
>
> Muhammad Waleed Butt
>
> Hassan Khan
>
> ABOUT US
>
> Craft-Arena is a partnershipbased business that will help local crafters of Pakistan to sell their handy crafts at good prices and helps them earn good living.
IronPDF for Java convierte la URL a PDF en tiempo de ejecución y extrae texto de ella. Este ejemplo mostrará el código fuente para extraer texto de URLs.
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
// new PDF parser
String text = pdf.extractAllText();
System.out.println("Text extracted from the URLs: " + text);
}
}
Datos extraídos de la página web
Extraer datos de tablas de un PDF utilizando IronPDF for Java es muy sencillo; todo lo que necesita es un PDF que contenga una tabla, y ejecutar el siguiente código.
Entrada de Tabla PDF de Muestra
import com.ironsoftware.ironpdf.PdfDocument;
import java.io.IOException;
import java.nio.file.Paths;
public class Main {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("table.pdf"));
String text = pdf.extractAllText();
System.out.print("Text extracted from the Marked tables: " + text);
}
}
> Test Case Description Expected Result Actual Result Status
>
> 1 Test login functionality User should be able to log in with valid credentials
>
> User log in successfully Pass
>
> 2 Test search functionality Search results should be relevant and accurate
>
> Search is accurate and provide relevant products Pass
>
> 3 Test checkout process User should be able to complete a purchase successfully
>
> User can purchase successfully Pass
En conclusión, este tutorial ha demostrado cómo extraer datos, específicamente datos tabulares de un archivo PDF, utilizando IronPDF for Java.
Para más información, por favor consulte el ejemplo de extracción de texto de PDF en el sitio web de IronPDF.
IronPDF es una biblioteca con detalles de licencia comercial, comenzando en $749. Sin embargo, puedes evaluarlo en producción con una prueba gratuita usando la licencia de prueba de IronPDF.