Pruebas en un entorno real
Pruebe en producción sin marcas de agua.
Funciona donde lo necesites.
Este artículo mostrará cómo analizar PDFs usando Node.js con la librería IronPDF, PDF parser Node.js.
El entorno de ejecución de JavaScript Node.js, multiplataforma y de código abierto, permite ejecutar código JavaScript fuera de un navegador web. Los programadores pueden crear aplicaciones de red escalables, rápidas y eficaces habilitando la ejecución de módulos JavaScript o JS del lado del servidor. Dado que Node.js es un modelo de E/S basado en eventos y sin bloqueos, resulta ideal para desarrollar aplicaciones en tiempo real que gestionen varias conexiones a la vez con elementos de formulario interactivos.
Node.js se utiliza con frecuencia para crear una amplia gama de aplicaciones, incluyendo servidores web, APIs, aplicaciones de streaming de estructuras de datos, aplicaciones de chat en tiempo real, Internet de las Cosas(IoT) dispositivos, etc. Con todo, Node.js está ganando popularidad por su eficacia, velocidad y compatibilidad con JavaScript tanto en el front-end como en el back-end, proporcionando un único lenguaje para el desarrollo full-stack. Compruébelositio web explicativo para obtener más información sobre Node.js.
Para parsear PDFs en flujo legible, descargue el paquete Node.js.
Instale la biblioteca IronPDF for Node.js.
Cree un nuevo PDF o importe uno existente con los datos del documento analizado.
Para extraer cada línea de texto, utilice la funciónextraerTexto método.
En mi última actualización de conocimientos, en enero de 2022, IronPDF era en gran medida una biblioteca .NET creada para funcionar dentro de .NET Framework, que permitía a los desarrolladores trabajar con documentos PDF utilizando C# o VB.NET. Sin embargo, no existía una versión nativa o directa de IronPDF hecha sólo para Node.js.
Como IronPDF se ha ampliado para admitir e incluir bindings para Node.js, esto probablemente significa que las herramientas para crear, editar y procesar documentos PDF en aplicaciones Node.js ya están disponibles en IronPDF for Node.js.
*Generación de HTML a PDF: Capacidad para convertir contenido HTML en documentos PDF.
La adición, alteración o eliminación de texto, formas, imágenes y otros elementos de archivos PDF se conoce comomanipulación de texto e imágenes.
*Combinandoextracción de páginas de archivos PDF,dividir archivos PDFycifrar y descifrar todos ellos son ejemplos de alteración de documentos PDF.
*Gestión de formularios abarca la cumplimentación de formularios, la adquisición de datos de formularios y el aprovechamiento de formularios PDF mediante programación.
La recuperación y modificación de archivos PDF se conoce como manejo de metadatos de página.
Si IronPDF ha ampliado su gama de productos para incluir una versión Node.js, esto podría ofrecer a los desarrolladores de aplicaciones Node.js la posibilidad de utilizar las funciones de manipulación de PDF de IronPDF. Esto podría ser útil para los desarrolladores que prefieran trabajar con una biblioteca que ofrezca funciones similares a las de IronPDF en el entorno .NET.
Siempre se debe consultar la documentación oficial, las notas de la versión o las actualizaciones del equipo de IronPDF para obtener la información más actual y actualizada sobre las características, la compatibilidad y la compatibilidad de IronPDF con Node.js. Vaya aquí para obtener más información sobre IronPDF y las nuevas funciones de cada versión. Para saber más sobre IronPDF, consulte este enlacepágina de documentación oficial.
Abra el símbolo del sistema o el terminal: Abra el símbolo del sistema o el terminal. Hay varias formas de acceder a él en función de tu sistema operativo:
Terminal en Linux
Instala el paquete: Para instalar un paquete, utiliza el nombre del paquete y el comando npm install. Por ejemplo, para instalar el paquete @ironsoftware/ironpdf
, ejecute el siguiente comando en el terminal:
npm i @ironsoftware/ironpdf
Sustituya @ironsoftware/ironpdf
por el nombre del paquete que desee instalar. Para instalar el paquete real.
Instalar IronPDF
Experimentando, se puede ver que IronPDF ofrece un montón de características para facilitar el tratamiento de PDF en Node.js. Se centra en la generación, visualización y modificación de cualquier documento PDF en los formatos requeridos. Los archivos PDF son bastante fáciles de analizar.
const { PdfDocument } = require("@ironsoftware/ironpdf");
const pdfprocess = async () => {
// Load the existing PDF document
const pdf = await PdfDocument.fromFile("Demo.pdf");
var data = await pdf.extractText();
console.log(data);
};
pdfprocess();
La importancia de ladeArchivo la función se demuestra con el código anterior. método fromFile
que permite leer documentos PDF y convertir el archivo PDF enDocumentoPdf objetos, carga el archivo desde un sistema de archivos existente. Así, PdfDocument
contiene los metadatos del PDF. Los metadatos del archivo en el objeto pdf pueden utilizarse como desee el usuario. Este objeto analiza los datos del documento, es decir, el texto y los gráficos contenidos en el objeto página PDF. La función extractText
se utiliza para extraer todo el texto del archivo PDF proporcionado. Después, el texto recuperado se guarda como una cadena y se prepara para un procesamiento adicional, como la creación del formato JSON.
A continuación se muestra el código del segundo enfoque, que extrae explícitamente el texto de cada página del archivo PDF.
const pdf = await PdfDocument.fromFile("Demo.pdf");
var pagecount = await pdf.getPageCount();
for (var i = 0; i < pagecount; i++) {
var spdf = await pdf.extractText(i);
console.log(spdf);
}
Este código de ejemplo carga desde el directorio especificado la totalidad de la lectura en bruto de un PDF que ya se encuentra en memoria y, a continuación, crea un objeto PdfDocument
llamado pdf. Un documento PDF es una estructura de datos compuesta por varios tipos de objetos de datos fundamentales. Cada dato de página del archivo PDF se recupera utilizando su número de página o índice de página en el objeto PDF para garantizar que se procesa uno tras otro. En primer lugar, utilizamos elrecuento de páginas de su objeto PDF para averiguar el número total de páginas del PDF suministrado.
El bucle For itera a través de cada página utilizando este recuento de páginas, invocando la función extractText
para recuperar el texto de cada página PDF. El texto extraído puede mostrarse en la pantalla del usuario o guardarse en una variable de cadena. Por lo tanto, esta técnica permite extraer texto de páginas PDF individuales de forma organizada. Estas técnicas demuestran cómo IronPDF, una biblioteca Node.js hecha específicamente para trabajos con PDF, puede extraer texto de archivos PDF de forma fácil y minuciosa. Esta accesibilidad aumenta la utilidad de los PDF en diversos contextos y tiene numerosas aplicaciones prácticas.
Leer PDF página por página
Los dos códigos anteriores devuelven la misma salida, pero el único cambio es la implementación del código basada en los requisitos del usuario. Para saber más sobre IronPDF, consulte este enlacepáginas de documentación detallada.
La biblioteca IronPDF ofrece sólidas medidas de seguridad para reducir los riesgos y garantizar la seguridad de los datos. Es compatible con todos los navegadores populares y no se limita a ninguno de ellos. Para adaptarse a las distintas demandas de los desarrolladores, la biblioteca ofrece una amplia gama de opciones de licencia, incluida una licencia gratuita para desarrolladores y licencias de desarrollo adicionales que pueden adquirirse.
Además de una licencia permanente, un año de mantenimiento del software y una garantía de devolución del dinero de treinta días, el paquete $749 Lite incluye posibilidades de actualización. Los usuarios tienen la oportunidad de evaluar el producto en circunstancias de aplicación práctica durante todo el periodo de prueba con marca de agua. Por favor, compruebepágina de licencias para obtener más información sobre el coste, la licencia y la versión de prueba de IronPDF. Para conocer otros productos ofrecidos por Iron Software, consulte el sitio web oficial.
Precios de Iron Software
9 productos API .NET para sus documentos de oficina