Pruebas en un entorno real
Pruebe en producción sin marcas de agua.
Funciona donde lo necesites.
Formato de documento portátil (PDF) es un formato digital utilizado para enviar datos por Internet. Conserva el formato de los datos y permite a los usuarios controlar mejor el contenido. Es el formato más adecuado para la impresión. Cuando se trabaja en Java, puede surgir la necesidad de leer datos de un archivo PDF en un programa Java, lo que puede ser una tarea tediosa para construir un analizador de PDF y extraer texto de diferentes secciones del PDF. Sin embargo, con la mejora de las tecnologías y la aparición de numerosas bibliotecas, crear un analizador Java de PDF y extraer texto es ahora más fácil.
En este artículo, crearemos un analizador PDF en Java utilizando la librería IronPDF.
IronPDF es una biblioteca PDF de Java que permite crear, leer y manipular documentos PDF con facilidad y precisión. Se basa en el éxito de IronPDF for .NET y ofrece una funcionalidad eficaz en distintas plataformas. IronPDF for Java utiliza el IronPdfEngine
, que es rápido y optimizado para el rendimiento.
Con IronPDF, puede analizar páginas PDF y extraer texto, imágenes y otros objetos de archivos PDF. También permite la creación de PDF a partir de cadenas HTML, archivos, URL e imágenes, así como la conversión entre distintos formatos de archivo. Además, puede añadir fácilmente nuevos contenidos, sellar firmas y añadir metadatos a los documentos PDF existentes. IronPDF está diseñado específicamente para Java 8+, Scala y Kotlin, y es compatible con plataformas Windows, Linux y Cloud.
fromArchivo
métodoextraerTodoTexto
métodorenderUrlAsPdf
método to render a PDF from a URLextractAllImages
métodoPara realizar un proyecto de análisis de PDF en Java, necesitará las siguientes herramientas:
:ProductInstall
<dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-simple</artifactId>
<version>2.0.5</version>
</dependency>
Una vez instalados todos los requisitos previos, tenemos que importar los paquetes IronPDF necesarios para trabajar con un documento PDF. Añade el siguiente código en la parte superior del archivo Main.java:
import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
Algunos métodos disponibles en IronPDF requieren una licencia para ser utilizados. Puede adquirir una licencia o probar IronPDF en una versión de prueba gratuita. Puede configurar la tecla de la siguiente manera:
License.setLicenseKey("YOUR-KEY");
Para analizar un documento existente y extraer su contenido, se utiliza la clase PdfDocument
. Su método estático fromFile
se utiliza para analizar un archivo PDF desde una ruta específica con un nombre de archivo específico en un programa Java. El código es el siguiente:
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
IronPDF for Java proporciona un método sencillo para extracción de texto de documentos PDF. El siguiente fragmento de código es para extraer datos de texto de un archivo PDF está por debajo:
String extracted_text = parsedDocument.extractAllText();
El código anterior produce el resultado que se indica a continuación:
La capacidad de IronPDF for Java no sólo se limita a los PDF existentes, sino que también puede crear y analizar un nuevo archivo para extraer el contenido. Aquí crearemos un Archivo PDF desde URL y luego extraer contenido de ella. El siguiente ejemplo muestra cómo realizar esta tarea:
public class Main {
public static void main(String [] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
String extracted_text = parsedDocument.extractAllText();
System.out.println("Text Extracted from URL:\n" + extracted_text);
}
}
El resultado es el siguiente:
IronPDF también ofrece una opción sencilla para extraer todas las imágenes del documento analizado. Aquí utilizaremos el ejemplo anterior para ver con qué facilidad se extraen las imágenes de los archivos PDF.
public static void main(String [] args) throws IOException {
License.setLicenseKey("YOUR-KEY");
PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
try {
List images = parsedDocument.extractAllImages();
System.out.println("Number of images extracted from the website: " + images.size());
int i = 0;
for (BufferedImage image : images) {
ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
}
} catch(Exception exception) {
System.out.println("Failed to extract images from the website");
exception.printStackTrace();
}
}
El método extractAllImages
devuelve una lista de BufferedImages
. Cada BufferedImage
puede entonces almacenarse como imágenes PNG en una ubicación utilizando el método ImageIO.write
. Hay 34 imágenes en el archivo PDF analizado y cada imagen está perfectamente extraída.
Extraer el contenido de los límites tabulares de un archivo PDF es muy fácil con sólo una línea de código utilizando el método extractAllText
. El siguiente fragmento de código muestra cómo extraer texto de una tabla en un archivo PDF:
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extracted_text = parsedDocument.extractAllText();
System.out.println(extracted_text);
El resultado es el siguiente:
En este artículo, hemos aprendido cómo analizar un documento PDF existente o crear un nuevo archivo PDF parser de una URL para extraer datos de ella en Java utilizando IronPDF. Después de abrir el archivo, podemos extraer datos tabulares, imágenes y texto del PDF. También podemos añadir el texto extraído a un archivo de texto para su uso posterior.
Para obtener información más detallada sobre cómo trabajar con archivos PDF mediante programación en Java, visite este enlace enlace.
La biblioteca IronPDF for Java es gratuita para fines de desarrollo con un prueba gratuita. Sin embargo, para uso comercial puede ser con licencia a partir de $749.
9 productos API .NET para sus documentos de oficina