Saltar al pie de página
USANDO IRONPDF PARA JAVA

Cómo Analizar PDFs en Java (Tutorial para Desarrolladores)

Este artículo creará un analizador de PDF en Java usando la biblioteca IronPDF de una manera eficiente.

IronPDF - Biblioteca PDF Java

IronPDF para Java es una biblioteca Java que permite la creación, lectura y manipulación de documentos PDF con facilidad y precisión. Está construido sobre el éxito de IronPDF para .NET y proporciona funcionalidad eficiente en diferentes plataformas. IronPDF para Java utiliza el IronPdfEngine que es rápido y optimizado para el rendimiento.

Con IronPDF, puedes extraer texto e imágenes de archivos PDF y también permite crear PDFs desde varias fuentes incluyendo cadenas HTML, archivos, URLs e imágenes. Además, puedes agregar fácilmente nuevo contenido, insertar firmas con IronPDF, y incrustar metadatos en documentos PDF. IronPDF está específicamente diseñado para Java 8+, Scala y Kotlin, y es compatible con plataformas Windows, Linux y Cloud.

Create PDF File Parser using IronPDF in Java Programa

Prerrequisitos

Para realizar un proyecto de análisis de PDF en Java, necesitarás las siguientes herramientas:

  1. IDE de Java: Puedes usar cualquier IDE que soporte Java. Hay múltiples IDEs de Java disponibles para el desarrollo. Aquí este tutorial utilizará IntelliJ IDE. Puedes usar NetBeans, Eclipse, etc.
  2. Proyecto Maven: Maven es un gestor de dependencias y permite el control sobre el proyecto Java. Maven para Java se puede descargar desde el sitio oficial de Maven. IntelliJ Java IDE tiene soporte integrado para Maven.
  3. IronPDF - Puedes descargar e instalar IronPDF para Java de múltiples maneras.

  4. Slf4j-Simple: Esta dependencia también es necesaria para estampar contenido en un documento existente. Se puede agregar usando el gestor de dependencias de Maven en IntelliJ, o se puede descargar directamente desde el sitio web de Maven. Añadir la siguiente dependencia al archivo pom.xml:

    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-simple</artifactId>
        <version>2.0.5</version>
    </dependency>
    <dependency>
        <groupId>org.slf4j</groupId>
        <artifactId>slf4j-simple</artifactId>
        <version>2.0.5</version>
    </dependency>
    XML

Añadir las importaciones necesarias

Una vez que se han instalado todos los prerrequisitos, el primer paso es importar los paquetes necesarios de IronPDF para trabajar con un documento PDF. Agregar el siguiente código en la parte superior del archivo Main.java:

import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
JAVA

Clave de licencia

Algunos métodos disponibles en IronPDF requieren una licencia para ser usados. Puedes comprar una licencia o probar IronPDF de manera gratuita en una prueba gratuita. Puedes establecer la clave así:

License.setLicenseKey("YOUR-KEY");
License.setLicenseKey("YOUR-KEY");
JAVA

Paso 1: Analizar un documento PDF existente

Para analizar un documento existente para extracción de contenido, se utiliza la clase [PdfDocument](/java/object-reference/api/com/Iron Software/ironpdf/PdfDocument.html). Su método estático [fromFile](/java/object-reference/api/com/Iron Software/ironpdf/PdfDocument.html#fromFile(java.nio.file.Path)) se usa para analizar un archivo PDF desde una ruta específica con un nombre de archivo específico en un programa Java. El código es el siguiente:

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("sample.pdf"));
JAVA

Cómo Analizar PDF en Java (Tutorial para Desarrolladores), Figura 1: Documento Analizado Documento Analizado

Paso 2: Extraer datos de texto del archivo PDF analizado

IronPDF para Java proporciona un método fácil para extraer texto de documentos PDF. El siguiente fragmento de código es para extraer datos de texto de un archivo PDF es el siguiente:

String extractedText = parsedDocument.extractAllText();
String extractedText = parsedDocument.extractAllText();
JAVA

El código anterior produce la siguiente salida:

Cómo Analizar PDF en Java (Tutorial para Desarrolladores), Figura 2: Salida Output

Paso 3: Extraer datos de texto de URL o cadenas HTML

La capacidad de IronPDF para Java no está restringida solo a PDFs existentes, sino que también puede crear y analizar un nuevo archivo para extraer contenido. Aquí, este tutorial creará un archivo PDF desde una URL y extraerá el contenido de él. El siguiente ejemplo muestra cómo lograr esta tarea:

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        String extractedText = parsedDocument.extractAllText();
        System.out.println("Text Extracted from URL:\n" + extractedText);
    }
}
public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");
        String extractedText = parsedDocument.extractAllText();
        System.out.println("Text Extracted from URL:\n" + extractedText);
    }
}
JAVA

El resultado es el siguiente:

Cómo Analizar PDF en Java (Tutorial para Desarrolladores), Figura 3: Salida Output

Paso 4: Extraer imágenes del documento PDF analizado

IronPDF también proporciona una opción fácil para extraer todas las imágenes de documentos analizados. Aquí el tutorial utilizará el ejemplo anterior para ver qué tan fácilmente se extraen las imágenes de los archivos PDF.

import com.ironsoftware.ironpdf.*;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

        try {
            List<BufferedImage> images = parsedDocument.extractAllImages();
            System.out.println("Number of images extracted from the website: " + images.size());

            int i = 0;
            for (BufferedImage image : images) {
                ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
            }
        } catch (Exception exception) {
            System.out.println("Failed to extract images from the website");
            exception.printStackTrace();
        }
    }
}
import com.ironsoftware.ironpdf.*;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.IOException;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.List;

public class Main {
    public static void main(String[] args) throws IOException {
        License.setLicenseKey("YOUR-KEY");

        PdfDocument parsedDocument = PdfDocument.renderUrlAsPdf("https://ironpdf.com/java/");

        try {
            List<BufferedImage> images = parsedDocument.extractAllImages();
            System.out.println("Number of images extracted from the website: " + images.size());

            int i = 0;
            for (BufferedImage image : images) {
                ImageIO.write(image, "PNG", Files.newOutputStream(Paths.get("assets/extracted_" + ++i + ".png")));
            }
        } catch (Exception exception) {
            System.out.println("Failed to extract images from the website");
            exception.printStackTrace();
        }
    }
}
JAVA

El método [extractAllImages](/java/object-reference/api/com/Iron Software/ironpdf/PdfDocument.html#extractAllImages)) devuelve una lista de BufferedImages. Cada BufferedImage se puede almacenar como imágenes PNG en una ubicación usando el método ImageIO.write. Hay 34 imágenes en el archivo PDF analizado y cada imagen es extraída perfectamente.

Cómo Analizar PDF en Java (Tutorial para Desarrolladores), Figura 4: Imágenes extraídas Imágenes extraídas

Paso 5: Extraer datos de una tabla en archivos PDF

Extraer contenido de límites tabulares en un archivo PDF se facilita con solo una línea de código usando el método [extractAllText](/java/object-reference/api/com/Iron Software/ironpdf/PdfDocument.html#extractAllText). El siguiente fragmento de código demuestra cómo extraer texto de una tabla en un archivo PDF:

Cómo Analizar PDF en Java (Tutorial para Desarrolladores), Figura 5: Tabla en PDF Tabla en PDF

PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extractedText = parsedDocument.extractAllText();
System.out.println(extractedText);
PdfDocument parsedDocument = PdfDocument.fromFile(Paths.get("table.pdf"));
String extractedText = parsedDocument.extractAllText();
System.out.println(extractedText);
JAVA

El resultado es el siguiente:

Cómo Analizar PDF en Java (Tutorial para Desarrolladores), Figura 6: Salida Output

Conclusión

Este artículo demostró cómo analizar un documento PDF existente o crear un nuevo archivo de analizador de PDF desde una URL para extraer datos en Java usando IronPDF. Después de abrir el archivo, puede extraer datos tabulares, imágenes y texto del PDF, y también puede agregar el texto extraído a un archivo de texto para uso posterior.

Para obtener más información detallada sobre cómo trabajar con archivos PDF programáticamente en Java, por favor visita estos ejemplos de creación de archivos PDF.

La biblioteca IronPDF para Java es gratuita para propósitos de desarrollo con una prueba gratuita disponible. Sin embargo, para uso comercial puede ser licenciado a través de Iron Software, empezando en $799.

Preguntas Frecuentes

¿Cómo creo un analizador de PDF en Java?

Para crear un analizador de PDF en Java, puede usar la biblioteca IronPDF. Comience descargando e instalando IronPDF, luego cargue su documento PDF usando el método fromFile. Puede extraer texto e imágenes utilizando los métodos extractAllText y extractAllImages respectivamente.

¿Puede usarse IronPDF con Java 8+?

Sí, IronPDF es compatible con Java 8 y superior, así como Scala y Kotlin. Soporta múltiples plataformas, incluidas Windows, Linux y entornos en la nube.

¿Cuáles son los pasos clave para analizar PDFs usando IronPDF en Java?

Los pasos clave incluyen configurar un proyecto Maven, agregar la dependencia de IronPDF, cargar un documento PDF con fromFile, extraer texto usando extractAllText y extraer imágenes usando extractAllImages.

¿Cómo puedo convertir una URL a PDF en Java?

Puede convertir una URL a PDF en Java usando el método renderUrlAsPdf de IronPDF. Esto le permite renderizar páginas web como documentos PDF de manera eficiente.

¿Es adecuado IronPDF para aplicaciones Java basadas en la nube?

Sí, IronPDF está diseñado para ser versátil y admite entornos basados ​​en la nube, lo que lo hace adecuado para desarrollar aplicaciones Java que requieren funcionalidades PDF en la nube.

¿Cómo gestiono las dependencias para un proyecto de análisis de PDF en Java?

Para gestionar las dependencias en un proyecto Java, puede usar Maven. Agregue la biblioteca IronPDF al archivo pom.xml de su proyecto para incluirla como una dependencia.

¿Qué opciones de licencia están disponibles para IronPDF?

IronPDF ofrece una prueba gratuita para fines de desarrollo. Sin embargo, para uso comercial, se requiere una licencia. Esto asegura el acceso a todas las funciones y soporte prioritario.

Darrius Serrant
Ingeniero de Software Full Stack (WebOps)

Darrius Serrant tiene una licenciatura en Ciencias de la Computación de la Universidad de Miami y trabaja como Ingeniero de Marketing WebOps Full Stack en Iron Software. Atraído por la programación desde joven, vio la computación como algo misterioso y accesible, convirtiéndolo en el ...

Leer más