Pruebe en producción sin marcas de agua.
Funciona donde lo necesite.
Obtén 30 días de producto totalmente funcional.
Ténlo en funcionamiento en minutos.
Acceso completo a nuestro equipo de asistencia técnica durante la prueba del producto
Este artículo mostrará cómo analizar PDFs usando Node.js con la librería IronPDF, PDF parser Node.js.
El entorno de ejecución de JavaScript Node.js, multiplataforma y de código abierto, permite ejecutar código JavaScript fuera de un navegador web. Los programadores pueden crear aplicaciones de red escalables, rápidas y eficaces habilitando la ejecución de módulos JavaScript o JS del lado del servidor. Dado que Node.js es un modelo de E/S basado en eventos y sin bloqueos, resulta ideal para desarrollar aplicaciones en tiempo real que gestionen varias conexiones a la vez con elementos de formulario interactivos.
Node.js se utiliza con frecuencia para crear una amplia gama de aplicaciones, incluidos servidores web, API, aplicaciones de transmisión de estructuras de datos, aplicaciones de chat en tiempo real, dispositivos de Internet de las Cosas (IoT) y más. Con todo, Node.js está ganando popularidad por su eficacia, velocidad y compatibilidad con JavaScript tanto en el front-end como en el back-end, proporcionando un único lenguaje para el desarrollo full-stack. Visita este sitio web de explicación para las páginas de documentación y aprender más sobre Node.js.
Para parsear PDFs en flujo legible, descargue el paquete Node.js.
Instale la biblioteca IronPDF for Node.js.
Cree un nuevo PDF o importe uno existente con los datos del documento analizado.
Para extraer cada línea de texto, use el método extractText
.
En mi última actualización de conocimientos, en enero de 2022, IronPDF era en gran medida una biblioteca .NET creada para funcionar dentro de .NET Framework, que permitía a los desarrolladores trabajar con documentos PDF utilizando C# o VB.NET. Sin embargo, no existía una versión nativa o directa de IronPDF hecha sólo para Node.js.
Como IronPDF se ha ampliado para admitir e incluir bindings para Node.js, esto probablemente significa que las herramientas para crear, editar y procesar documentos PDF en aplicaciones Node.js ya están disponibles en IronPDF for Node.js.
La recuperación y modificación de archivos PDF se conoce como manejo de metadatos de página.
Si IronPDF ha ampliado su gama de productos para incluir una versión Node.js, esto podría ofrecer a los desarrolladores de aplicaciones Node.js la posibilidad de utilizar las funciones de manipulación de PDF de IronPDF. Esto podría ser útil para los desarrolladores que prefieran trabajar con una biblioteca que ofrezca funciones similares a las de IronPDF en el entorno .NET.
Siempre se debe consultar la documentación oficial, las notas de la versión o las actualizaciones del equipo de IronPDF para obtener la información más actual y actualizada sobre las características, la compatibilidad y la compatibilidad de IronPDF con Node.js. Vaya aquí para obtener más información sobre IronPDF y las nuevas funciones de cada versión. Para saber más sobre IronPDF, consulte esta página de documentación oficial.
Abra el símbolo del sistema o el terminal: Abra el símbolo del sistema o el terminal. Hay varias formas de acceder a él en función de tu sistema operativo:
Terminal en Linux
Instala el paquete: Para instalar un paquete, utiliza el nombre del paquete y el comando npm install. Por ejemplo, para instalar el paquete @ironsoftware/ironpdf
, ejecute el siguiente comando en la terminal:
npm i @ironsoftware/ironpdf
Reemplace @ironsoftware/ironpdf
con el nombre del paquete que desea instalar. Para instalar el paquete real.
Instalar IronPDF
Experimentando, se puede ver que IronPDF ofrece un montón de características para facilitar el tratamiento de PDF en Node.js. Se centra en la generación, visualización y modificación de cualquier documento PDF en los formatos requeridos. Los archivos PDF son bastante fáciles de analizar.
const { PdfDocument } = require("@ironsoftware/ironpdf");
const pdfprocess = async () => {
// Load the existing PDF document
const pdf = await PdfDocument.fromFile("Demo.pdf");
var data = await pdf.extractText();
console.log(data);
};
pdfprocess();
js
La importancia de la función fromFile
se demuestra con el código anterior. El método fromFile
, que permite leer documentos PDF y convertir el archivo PDF en objetos PdfDocument
, carga el archivo desde un sistema de archivos existente. Así, PdfDocument
contiene los metadatos de los PDFs. Los metadatos del archivo en el objeto pdf pueden utilizarse como desee el usuario. Este objeto analiza los datos del documento, es decir, el texto y los gráficos contenidos en el objeto página PDF. La función extractText
se utiliza para extraer todo el texto del archivo PDF proporcionado. Después, el texto recuperado se guarda como una cadena y se prepara para un procesamiento adicional, como la creación de formato JSON.
A continuación se muestra el código del segundo enfoque, que extrae explícitamente el texto de cada página del archivo PDF.
const pdf = await PdfDocument.fromFile("Demo.pdf");
var pagecount = await pdf.getPageCount();
for (var i = 0; i < pagecount; i++) {
var spdf = await pdf.extractText(i);
console.log(spdf);
}
js
La lectura de PDF sin procesar desde un PDF que ya está en memoria se carga desde el directorio especificado en su totalidad mediante este código de ejemplo, que luego crea un objeto PdfDocument
llamado pdf. Un documento PDF es una estructura de datos compuesta por varios tipos de objetos de datos fundamentales. Cada dato de página del archivo PDF se recupera utilizando su número de página o índice de página en el objeto PDF para garantizar que se procesa uno tras otro. Primero, utilizamos el método getPageCount
de su objeto PDF para encontrar el número total de páginas en el PDF proporcionado.
El bucle for itera a través de cada página utilizando este conteo de páginas, invocando la función extractText
para recuperar texto de cada página PDF. El texto extraído puede mostrarse en la pantalla del usuario o guardarse en una variable de cadena. Por lo tanto, esta técnica permite extraer texto de páginas PDF individuales de forma organizada. Estas técnicas demuestran cómo IronPDF, una biblioteca Node.js hecha específicamente para trabajos con PDF, puede extraer texto de archivos PDF de forma fácil y minuciosa. Esta accesibilidad aumenta la utilidad de los PDF en diversos contextos y tiene numerosas aplicaciones prácticas.
Leer página por página del PDF
Los dos códigos anteriores devuelven la misma salida, pero el único cambio es la implementación del código basada en los requisitos del usuario. Para saber más sobre IronPDF, consulte estas páginas de documentación detallada.
La biblioteca IronPDF ofrece sólidas medidas de seguridad para reducir los riesgos y garantizar la seguridad de los datos. Es compatible con todos los navegadores populares y no se limita a ninguno de ellos. Para adaptarse a las distintas demandas de los desarrolladores, la biblioteca ofrece una amplia gama de opciones de licencia, incluida una licencia gratuita para desarrolladores y licencias de desarrollo adicionales que pueden adquirirse.
Además de una licencia permanente, un año de mantenimiento de software y una garantía de devolución de dinero de treinta días, el paquete Lite $749 incluye posibilidades de actualización. Los usuarios tienen la oportunidad de evaluar el producto en circunstancias de aplicación práctica durante todo el periodo de prueba con marca de agua. Por favor, revise la página de licencias para obtener más detalles sobre el costo, las licencias y la versión de prueba de IronPDF. Para conocer otros productos ofrecidos por Iron Software, visite el sitio web oficial.
Precios de Iron Software