Pruebe en producción sin marcas de agua.
Funciona donde lo necesite.
Obtén 30 días de producto totalmente funcional.
Ténlo en funcionamiento en minutos.
Acceso completo a nuestro equipo de asistencia técnica durante la prueba del producto
Este artículo creará un analizador de PDF en Java utilizando la biblioteca IronPDF de manera eficiente.
IronPDF for Java es una biblioteca de PDF para Java que permite la creación, lectura y manipulación de documentos PDF con facilidad y precisión. Se basa en el éxito de IronPDF for .NET y ofrece una funcionalidad eficaz en distintas plataformas. IronPDF for Java utiliza el IronPdfEngine
que es rápido y está optimizado para el rendimiento.
Con IronPDF, puedes extraer texto e imágenes de archivos PDF y también permite crear PDFs desde varias fuentes incluyendo cadenas HTML, archivos, URLs e imágenes. Además, puede agregar fácilmente contenido nuevo, insertar firmas con IronPDF y incrustar metadatos en documentos PDF. IronPDF está diseñado específicamente para Java 8+, Scala y Kotlin, y es compatible con las plataformas Windows, Linux y Cloud.
fromFile
extractAllText
renderUrlAsPdf
para renderizar un PDF desde una URLextractAllImages
Para realizar un proyecto de análisis de PDF en Java, necesitará las siguientes herramientas:
Java IDE: Puedes utilizar cualquier IDE compatible con Java. Hay varios IDE disponibles para el desarrollo en Java. Aquí este tutorial utilizará IntelliJ IDE. Puedes utilizar NetBeans, Eclipse, etc.
Proyecto Maven: Maven es un gestor de dependencias y permite el control sobre el proyecto Java. Maven para Java se puede descargar desde el sitio web oficial de Maven. El IDE de Java IntelliJ tiene soporte integrado para Maven.
IronPDF - Puedes descargar e instalar IronPDF for Java de múltiples maneras.
pom.xml
en un proyecto Maven. :ProductInstall
Visite el sitio web del repositorio Maven para el último paquete de IronPDF para Java.
Una descarga directa desde la página oficial de descargas de Iron Software.
pom.xml
: <dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-simple</artifactId>
<version>2.0.5</version>
</dependency>
Una vez que se hayan instalado todos los requisitos previos, el primer paso es importar los paquetes necesarios de IronPDF para trabajar con un documento PDF. Agrega el siguiente código en la parte superior del archivo Main.java
:
import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
Algunos métodos disponibles en IronPDF requieren una licencia para ser utilizados. Puede adquirir una licencia o probar IronPDF en una versión de prueba gratuita. Puede configurar la tecla de la siguiente manera:
License.setLicenseKey("YOUR-KEY");
Para analizar un documento existente para la extracción de contenido, se utiliza la clase PdfDocument
. Su método estático fromFile
se utiliza para analizar un archivo PDF desde una ruta específica con un nombre de archivo específico en un programa Java. El código es el siguiente:
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
Documento analizado
IronPDF for Java proporciona un método sencillo para extraer texto de documentos PDF. El siguiente fragmento de código es para extraer datos de texto de un archivo PDF está por debajo:
String extracted_text = parsedDocument.extractAllText();
El código anterior produce el resultado que se indica a continuación:
Salida
La capacidad de IronPDF for Java no sólo se limita a los PDF existentes, sino que también puede crear y analizar un nuevo archivo para extraer el contenido. Aquí, este tutorial creará un archivo PDF a partir de una URL y extraerá contenido de él. El siguiente ejemplo muestra cómo realizar esta tarea:
public class Main {
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
String extracted_text = parsedDocument.extractAllText();
System.out.println("Text Extracted from URL:\n" + extracted_text);
}
}
El resultado es el siguiente:
Salida
IronPDF también ofrece una opción fácil para extraer todas las imágenes de los documentos analizados. Aquí el tutorial usará el ejemplo anterior para ver lo fácilmente que se extraen las imágenes de los archivos PDF.
import com.ironsoftware.ironpdf.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
try {
List<BufferedImage> images = parsedDocument.extractAllImages();
System.out.println("Number of images extracted from the website: " + images.size());
int i = 0;
for (BufferedImage image : images) {
ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
}
} catch (Exception exception) {
System.out.println("Failed to extract images from the website");
exception.printStackTrace();
}
}
El método [extractAllImages
](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllImages()) devuelve una lista de BufferedImages
. Cada BufferedImage
puede ser almacenado como imágenes PNG en una ubicación utilizando el método ImageIO.write
. Hay 34 imágenes en el archivo PDF analizado y cada imagen está perfectamente extraída.
Imágenes extraídas
Extraer contenido de los límites tabulares en un archivo PDF es fácil con solo una línea de código usando el método [extractAllText
](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText(). El siguiente fragmento de código muestra cómo extraer texto de una tabla en un archivo PDF:
Tabla en PDF
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extracted_text = parsedDocument.extractAllText();
System.out.println(extracted_text);
El resultado es el siguiente:
Salida
Este artículo demostró cómo analizar un documento PDF existente o crear un nuevo archivo de parser PDF desde una URL para extraer datos de él en Java utilizando IronPDF. Después de abrir el archivo, puede extraer datos tabulares, imágenes y texto del PDF, y también puede agregar el texto extraído a un archivo de texto para su uso posterior.
Para obtener más información sobre cómo trabajar con archivos PDF programáticamente en Java, visite estos ejemplos de creación de archivos PDF.
La biblioteca IronPDF for Java es gratuita para fines de desarrollo con una prueba gratuita disponible. Sin embargo, para uso comercial se puede licenciar a través de IronSoftware, comenzando desde $749.