import com.ironsoftware.ironpdf.*; import java.io.IOException; import java.nio.file.Paths; // Aplique su clave de licencia License.setLicenseKey("YOUR-LICENSE-KEY"); // Establecer una ruta de registro Settings.setLogPath(Paths.get("C:/tmp/IronPdfEngine.log")); // Renderiza el HTML como un PDF. Almacenado en myPdf como tipo PdfDocument; PdfDocument myPdf = PdfDocument.renderHtmlAsPdf("<h1> ~Hello World~ </h1> Made with IronPDF!"); // Guardar el documento Pdf en un archivo myPdf.saveAs(Paths.get("html_saved.pdf"));

USO DE IRONPDF PARA JAVA

Cómo leer archivos PDF en Java

Actualizado 26 de febrero, 2023

Los archivos PDF son el formato de documento más utilizado para transferir datos en la era moderna, principalmente porque puede conservar el formato y presentar los datos de la misma forma en que se enviaron, sin ninguna excepción. Para cargar, abrir y visualizar documentos PDF, necesitamos un sistema lector de documentos PDF. Hay muchos lectores de PDF disponibles, pero si desea abrir un archivo PDF en su aplicación de software mediante programación, entonces se necesita una biblioteca de clases adecuada para hacerlo.

Aquí vamos a ver una de estas bibliotecas de sistema que ayuda a abrir y leer archivos PDF utilizando el nombre de archivo en el programa Java.

Cómo leer archivos PDF en java

Descargar biblioteca Java para leer archivos PDF
Utilice fromArchivo método para cargar un documento PDF existente
Llame a extraerTodoTexto método para extraer texto incrustado en PDF
Extraer texto de una página específica con extraerTextoDePágina método
Recuperar texto de un PDF generado a partir de una URL

IronPDF

IronPDF - Biblioteca Java está construido sobre el ya exitoso .NET Framework. Esto convierte a IronPDF en una herramienta versátil para trabajar con documentos PDF en comparación con otras bibliotecas de clases como Apache PDFBox. Permite extraer y separar contenidos, cargar texto y cargar imágenes. También proporciona opciones para personalizar las páginas PDF, como el diseño de página, los márgenes, el encabezado y el pie de página, la orientación de la página y mucho más.

Además, IronPDF también admite la conversión desde otros formatos de archivo, la protección de PDF con contraseña, la firma digital y la fusión y división de documentos PDF.

Cómo leer archivos PDF en Java

Requisitos previos

Para utilizar IronPDF para crear un lector Java de PDF, primero tenemos que asegurarnos de que los siguientes componentes están instalados en el ordenador:

JDK - Java Development Kit es necesario para crear y ejecutar programas Java. Si no está instalado, descárguelo de Sitio web de Oracle.
IDE - Entorno de Desarrollo Integrado es un software que ayuda a escribir, editar y depurar un programa. Descarga cualquier IDE para Java. Por ejemplo, Eclipse, Netbeans, Intellij.
Maven - Maven es una herramienta de automatización que ayuda a descargar librerías del Repositorio Central. Descárguelo del Sitio web de Apache Maven.
IronPDF - Por último, IronPDF es necesario para leer el archivo PDF en Java. Debe añadirse como dependencia en su proyecto Java Maven. Incluya el artefacto IronPDF junto con la dependencia slf4j en el archivo pom.xml como se muestra en el siguiente ejemplo:


    :ProductInstall

Añadir importaciones necesarias

En primer lugar, añada el siguiente código en la parte superior del archivo fuente Java para hacer referencia a todos los métodos necesarios de IronPDF. Importar org es opcional en este ejemplo.

import com.ironsoftware.ironpdf.*;

import com.ironsoftware.ironpdf.*;

JAVA

A continuación, configure IronPDF con una clave de licencia válida para utilizar su método. Invocar el método setLicenseKey en el método main.

License.setLicenseKey("Your license key");

License.setLicenseKey("Your license key");

JAVA

Nota: Puede obtener una clave de licencia de prueba gratuita para crear, leer e imprimir archivos PDF.

Leer archivos PDF existentes en Java

A leer archivos PDF, debe haber archivos PDF o podemos crear uno. Aquí utilizaremos un archivo PDF ya creado. El código es simple y un proceso de dos pasos para extraer texto del documento.

PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractAllText();
System.out.println(text);

PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractAllText();
System.out.println(text);

JAVA

En el código anterior, fromFile abre un documento PDF. El método Paths.get obtiene el directorio del archivo y está listo para extraer el contenido del archivo. A continuación, extractAllText lee todo el texto del documento.

El resultado es el siguiente:

El resultado de recuperar todo el texto de un archivo PDF

Leer texto de una página específica

IronPDF también puede leer el contenido de una página específica de un PDF. El método extractTextFromPage utiliza un objeto PageSelection para aceptar un rango de páginas(s) del que se leerá el texto.

En el siguiente ejemplo, extraemos el texto de la segunda página del documento PDF. PageSelection.singlePage toma el índice de la página que hay que extraer.

PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
System.out.println(text);

PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
System.out.println(text);

JAVA

Salida generada al recuperar el texto de la segunda página del archivo PDF de muestra

Otros métodos disponibles en la clase PageSelection que se pueden utilizar para extraer texto de varias páginas incluyen: [primeraPágina](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#lastPage()), [Última página](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#firstPage()), rangoDePágina y [Todas las páginas](/java/object-reference/api/com/ironsoftware/ironpdf/edit/PageSelection.html#allPages()).

Leer texto de un archivo PDF recién generado

También podemos buscar texto en el archivo PDF recién generado desde un archivo HTML o una URL. El siguiente código de ejemplo genera un PDF a partir de una URL y extrae todo el texto del sitio web.

PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
String text = pdf.extractAllText();
System.out.println("Text extracted from the website: " + text);

PdfDocument pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
String text = pdf.extractAllText();
System.out.println("Text extracted from the website: " + text);

JAVA

Leer texto de un nuevo archivo PDF

IronPDF también puede utilizarse para extraer imágenes de archivos PDF.

El código completo es el siguiente:

import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import com.ironsoftware.ironpdf.edit.PageSelection;

import java.*;
import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String [] args) throws IOException {

        License.setLicenseKey("YOUR LICENSE KEY HERE");

        PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
        String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
        System.out.println(text);

        pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
        text = pdf.extractAllText();
        System.out.println("Text extracted from the website: " + text);

    }
}

import com.ironsoftware.ironpdf.License;
import com.ironsoftware.ironpdf.PdfDocument;
import com.ironsoftware.ironpdf.edit.PageSelection;

import java.*;
import java.io.IOException;
import java.nio.file.Paths;

public class Main {
    public static void main(String [] args) throws IOException {

        License.setLicenseKey("YOUR LICENSE KEY HERE");

        PdfDocument pdf = PdfDocument.fromFile(Paths.get("assets/sample.pdf"));
        String text = pdf.extractTextFromPage(PageSelection.singlePage(1));
        System.out.println(text);

        pdf = PdfDocument.renderUrlAsPdf("https://unsplash.com/");
        text = pdf.extractAllText();
        System.out.println("Text extracted from the website: " + text);

    }
}

JAVA

Resumen

En este artículo, vimos cómo podemos abrir y leer PDFs en Java usando IronPDF.

IronPDF ayuda a crear fácilmente PDFs desde HTML o URL y también a convertir desde diferentes formatos de archivo. También ayuda a realizar tareas en PDF de forma rápida y sencilla.

Pruebe IronPDF para 30 días y comprueba lo bien que te funciona en producción. Licencias comerciales sólo se inicia desde $749.

< ANTERIOR
Cómo dividir archivos PDF en Java

SIGUIENTE >
HTML2PDF Java (Tutorial de ejemplo de código)

Instalar con Maven

Versión:2024.7.1

<dependency>
  <groupId>com.ironsoftware</groupId>
  <artifactId>ironpdf</artifactId>
  <version>2024.7.1</version>
</dependency>

¿Ha sido útil esta página?

Únete a nuestro Bug Bounty para conseguir un botín de Iron

¿Listo para empezar? Versión: 2024.7 recién publicada

Ver licencias >

Ejemplos

Cómo leer archivos PDF en Java

Cómo leer archivos PDF en java

IronPDF

Cómo leer archivos PDF en Java

Requisitos previos

Añadir importaciones necesarias

Leer archivos PDF existentes en Java

Leer texto de una página específica

Leer texto de un archivo PDF recién generado

Resumen

En esta página

¿Ha sido útil esta página?

¿Listo para empezar? Versión: 2024.7 recién publicada

Pruebas en un entorno real

Producto totalmente funcional

Asistencia técnica 24/5

The trial form was submitted
successfully.

Pruebas en un entorno real

Producto totalmente funcional

Asistencia técnica 24/5

The trial form was submitted
successfully.

Pruebas en un entorno real

Producto totalmente funcional

Asistencia técnica 24/5

IronPDF forma parte de IRONSUITE

Cómo leer archivos PDF en Java

Cómo leer archivos PDF en java

IronPDF

Cómo leer archivos PDF en Java

Requisitos previos

Añadir importaciones necesarias

Leer archivos PDF existentes en Java

Leer texto de una página específica

Leer texto de un archivo PDF recién generado

Resumen

En esta página

¿Ha sido útil esta página?

¿Listo para empezar? Versión: 2024.7 recién publicada

Consigue GRATIS

El formulario de prueba se presentócon éxito.

El formulario de prueba se presentócon éxito.

El formulario de prueba se presentócon éxito.

El formulario de prueba se presentócon éxito.

Pruebas en un entorno real

Producto totalmente funcional

Asistencia técnica 24/5

Consigue gratis Clave de prueba de 30 días al instante.

The trial form was submittedsuccessfully.

El formulario de prueba se presentócon éxito.

Más de 2 millones de ingenieros de todo el mundo confían en nosotros

Pruebas en un entorno real

Producto totalmente funcional

Asistencia técnica 24/5

Consigue gratis Clave de prueba de 30 días al instante.

The trial form was submittedsuccessfully.

El formulario de prueba se presentócon éxito.

Más de 2 millones de ingenieros de todo el mundo confían en nosotros

Pruebas en un entorno real

Producto totalmente funcional

Asistencia técnica 24/5

Consigue gratis Clave de prueba de 30 días al instante.

Más de 2 millones de ingenieros de todo el mundo confían en nosotros

IronPDF forma parte de IRONSUITE

El formulario de prueba se presentó
con éxito.

El formulario de prueba se presentó
con éxito.

El formulario de prueba se presentó
con éxito.

El formulario de prueba se presentó
con éxito.

The trial form was submitted
successfully.

El formulario de prueba se presentó
con éxito.

The trial form was submitted
successfully.

El formulario de prueba se presentó
con éxito.