Pruebas en un entorno real
Pruebe en producción sin marcas de agua.
Funciona donde lo necesites.
Este artículo creará un analizador de PDF en Java utilizando la biblioteca IronPDF de manera eficiente.
IronPDF for Java es una biblioteca PDF de Java que permite crear, leer y manipular documentos PDF con facilidad y precisión. Se basa en el éxito de IronPDF for .NET y ofrece una funcionalidad eficaz en distintas plataformas. IronPDF for Java utiliza el IronPdfEngine
que es rápido y optimizado para el rendimiento.
Con IronPDF, puedeextraer texto e imágenes de archivos PDF y también permitecreación de PDF a partir de diversas fuentes incluyendo cadenas HTML, archivos, URL e imágenes. Además, se pueden añadir fácilmente nuevos contenidos,insertar firmas con IronPDFyincrustar metadatos en documentos PDF. IronPDF está diseñado específicamente para Java 8+, Scala y Kotlin, y es compatible con las plataformas Windows, Linux y Cloud.
fromArchivo
métodoextraerTodoTexto
métodorenderUrlAsPdf
para generar un PDF a partir de una URLextractAllImages
métodoPara realizar un proyecto de análisis de PDF en Java, necesitará las siguientes herramientas:
Java IDE: Puede utilizar cualquier IDE compatible con Java. Hay múltiples IDEs de Java disponibles para el desarrollo. Aquí este tutorial utilizaráIDE IntelliJ. Puedes utilizar NetBeans, Eclipse, etc.
Proyecto Maven: Maven es un gestor de dependencias y permite controlar el proyecto Java. Maven para Java puede descargarse desitio web oficial de Maven. El IDE de Java IntelliJ tiene soporte integrado para Maven.
IronPDF - Puede descargar e instalar IronPDF for Java de varias maneras.
pom.xml
en un proyecto Maven. :ProductInstall
Visite elSitio web del repositorio Maven para el último paquete IronPDF for Java.
Descarga directa de Iron Softwarepágina oficial de descargas.
pom.xml
: <dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-simple</artifactId>
<version>2.0.5</version>
</dependency>
Una vez que se hayan instalado todos los requisitos previos, el primer paso es importar los paquetes necesarios de IronPDF para trabajar con un documento PDF. Agrega el siguiente código en la parte superior del archivo Main.java
:
import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
Algunos métodos disponibles en IronPDF requieren una licencia para ser utilizados. Puede adquirir una licencia o probar IronPDF en una versión de prueba gratuita. Puede configurar la tecla de la siguiente manera:
License.setLicenseKey("YOUR-KEY");
Para analizar un documento existente para la extracción de contenido, elDocumentoPdfse utiliza la clase. Su estáticodeArchivoEl método se usa para analizar un archivo PDF desde una ruta específica con un nombre de archivo específico en un programa Java. El código es el siguiente:
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
Documento analizado
IronPDF for Java proporciona un método sencillo paraextracción de texto de documentos PDF. El siguiente fragmento de código es para extraer datos de texto de un archivo PDF está por debajo:
String extracted_text = parsedDocument.extractAllText();
El código anterior produce el resultado que se indica a continuación:
Salida
La capacidad de IronPDF for Java no sólo se limita a los PDF existentes, sino que también puede crear y analizar un nuevo archivo para extraer el contenido. Aquí, este tutorial creará unPDF a partir de una URL y extraer su contenido. El siguiente ejemplo muestra cómo realizar esta tarea:
public class Main {
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
String extracted_text = parsedDocument.extractAllText();
System.out.println("Text Extracted from URL:\n" + extracted_text);
}
}
El resultado es el siguiente:
Salida
IronPDF también ofrece una opción sencilla paraextraer todas las imágenes de los documentos analizados. Aquí el tutorial usará el ejemplo anterior para ver lo fácilmente que se extraen las imágenes de los archivos PDF.
import com.ironsoftware.ironpdf.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;
public static void main(String[] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
try {
List<BufferedImage> images = parsedDocument.extractAllImages();
System.out.println("Number of images extracted from the website: " + images.size());
int i = 0;
for (BufferedImage image : images) {
ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
}
} catch (Exception exception) {
System.out.println("Failed to extract images from the website");
exception.printStackTrace();
}
}
En[extraerTodasLasImágenes
](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllImages())El método devuelve una lista de BufferedImages
. Cada BufferedImage
puede entonces almacenarse como imágenes PNG en una ubicación utilizando el método ImageIO.write
. Hay 34 imágenes en el archivo PDF analizado y cada imagen está perfectamente extraída.
Imágenes extraídas
Extraer contenido de los límites tabulares en un archivo PDF es fácil con solo una línea de código usando el[método `extractAllText](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()). El siguiente fragmento de código muestra cómo extraer texto de una tabla en un archivo PDF:
Tabla en PDF
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extracted_text = parsedDocument.extractAllText();
System.out.println(extracted_text);
El resultado es el siguiente:
Salida
Este artículo demostró cómo analizar un documento PDF existente o crear un nuevo archivo de parser PDF desde una URL para extraer datos de él en Java utilizando IronPDF. Después de abrir el archivo, puede extraer datos tabulares, imágenes y texto del PDF, y también puede agregar el texto extraído a un archivo de texto para su uso posterior.
Para obtener información más detallada sobre cómo trabajar con archivos PDF mediante programación en Java, visite estos enlacesEjemplos de creación de archivos PDF.
La biblioteca IronPDF for Java es gratuita para fines de desarrollo con unprueba gratuita disponible. Sin embargo, para uso comercial puede sercon licencia de IronSoftwarea partir de $749.
9 productos API .NET para sus documentos de oficina