Pruebas en un entorno real
Pruebe en producción sin marcas de agua.
Funciona donde lo necesites.
Leer un documento PDF en Java puede ser una parte integral de cualquier proyecto, desde aplicaciones empresariales hasta análisis de datos. Con la biblioteca IronPDF, ahora es más fácil que nunca integrar funciones de procesamiento de PDF en sus proyectos Java.
fromArchivo
métodoextraerTodoTexto
Método para leer texto del PDF abiertoVisión general de la biblioteca PDF Java IrotPDF es la solución perfecta para los desarrolladores de software que necesitan producir productos de alta calidad,pDF listos para capturar rápidamente a partir de HTML. La biblioteca también proporciona potentes herramientas de manipulación de documentos que permiten un control dinámico sobrediseño y formato de página en IronPDFcontenido y formato.
Veamos cómo leer un archivo PDF almacenado en una ruta en un programa Java utilizando la biblioteca IronPDF.
El primer paso consiste en instalar IronPDF utilizando Maven; encontrará más información en el documentoGuía de instalación de IronPDF.
Estos son los pasos para instalar IronPDF en un proyecto Maven:
Abra su proyecto Maven en su IDE preferido.
pom.xml
, añada la dependencia de la biblioteca IronPDF en la sección dependencies
. :ProductInstall
Guarde el archivo pom.xml
y deje que Maven descargue e instale la librería IronPDF.
Una vez completada la instalación, debería poder importar y utilizar las siguientes clases de IronPDF y los analizadores Apache Tika en su proyecto.
Aquí está el código que puede utilizar para leer el nuevo archivo con o sin límites tabulares utilizando la biblioteca IronPDF.
import com.ironsoftware.ironpdf.*;
import java.io.IOException;
import java.nio.file.Paths;
public class Test {
public static void main(String[] args) throws IOException {
PdfDocument pdf = PdfDocument.fromFile(Paths.get("C:\\sample.pdf"));
String text = pdf.extractAllText();
System.out.println(text);
}
}
En este programa, elclase "PDFDocument" en IronPDF se utiliza para leer el contenido de un archivo PDF. La primera línea del programa importa las clases necesarias de la biblioteca IronPDF. La segunda línea importa la clase IOException
de la biblioteca estándar de Java.
El programa define una clase pública llamada Test
. Dentro de la clase, hay un método public static
llamado main
que toma un array de cadenas como argumento.
El método main
utiliza el métodométodo `fromFile' de PdfDocument en IronPDF de la clase PdfDocument
para cargar un archivo PDF ubicado en "C:\\sample.pdf". Este método devuelve un objeto PdfDocument
que representa el archivo PDF.
Una vez cargado el archivo PDF, el programa llama a la función[método "extractAllText" de PdfDocument en IronPDF](/java/object-reference/api/com/ironsoftware/ironpdf/PdfDocument.html#extractAllText()) de la clase PdfDocument
para extraer todo el texto del archivo PDF. Este método devuelve una String
que contiene todo el texto del archivo PDF.
El texto extraído se almacena en una variable String
llamada "text". Esta variable puede utilizarse para procesar o mostrar el contenido del archivo PDF.
Por último, el programa imprime el texto extraído en la consola utilizando el método System.out.println
.
Programa de salida
IronPDF es una gran solución para leer archivos PDF dentro de la misma ruta o de varias rutas diferentes en Java, ya que ofrece un alto rendimiento y muchas funciones que facilitan el desarrollo de PDF. Su sintaxis es sencilla y fácil de usar. Su API permite a los desarrolladores crear rápidamente el código que necesitan para sus proyectos.
Explorar las opciones de licencia de IronPDF los planes empiezan desde sólo $749, lo que hace accesible la extracción de contenidos para quienes tienen un presupuesto limitado. En general, IronPDF constituye una excelente opción para cualquier desarrollador Java que desee trabajar con archivos PDF en la programación de sus aplicaciones Java.
9 productos API .NET para sus documentos de oficina