USO DE IRONPDF PARA NODE.JS

Cómo analizar un documento PDF en Node.js

Actualizado 12 de diciembre, 2023
Compartir:

Introducción

El formato de documento portátil se conoce como PDF. Adobe desarrolló un formato de archivo para mostrar documentos o analizar objetos con formato de texto e imágenes que no depende de sistemas operativos, hardware o software de aplicación. Texto, fotos, formularios, botones interactivos, hipervínculos, tipos de letra incrustados y otros materiales pueden encontrarse en archivos PDF y títulos de documentos. Los archivos PDF se utilizan con frecuencia para compartir documentos porque conservan el formato de los objetos de página y los metadatos del búfer PDF en una gran variedad de dispositivos y software. Con frecuencia se convierten a formato PDF formularios, libros electrónicos, manuales y otros productos cuyo formato y diseño deben conservarse con el mismo resultado. En este artículo, vamos a ver cómo parsear PDFs usando Node.js con la librería IronPDF, PDF parser Node.

¿Qué es Node?

El entorno de ejecución de JavaScript Node.js, multiplataforma y de código abierto, permite ejecutar código JavaScript fuera de un navegador web. Los programadores pueden crear aplicaciones de red escalables, rápidas y eficaces habilitando la ejecución de módulos JavaScript o JS del lado del servidor. Dado que Node.js es un paradigma de E/S basado en eventos y no bloqueante, es ideal para desarrollar aplicaciones en tiempo real que gestionen varias conexiones a la vez con elementos de formulario interactivos.

Node.js se utiliza con frecuencia para crear una amplia gama de aplicaciones, incluyendo servidores web, APIs, aplicaciones de streaming de estructuras de datos, aplicaciones de chat en tiempo real, Internet de las Cosas (IoT) dispositivos, etc. Con todo, Node.js está ganando popularidad por su eficacia, velocidad y compatibilidad con JavaScript tanto en el front-end como en el back-end, proporcionando un único lenguaje para el desarrollo full-stack. Compruebe el enlace para obtener más información sobre Node.js.

Cómo analizar un documento PDF en Node.js

  1. Para parsear PDFs en flujo legible, descargue el paquete Node.js.
  2. Instale la biblioteca IronPDF Node.js.
  3. Cree un nuevo PDF o importe uno existente con los datos del documento analizado.
  4. Para extraer cada línea de texto, utilice la función "extractText()".
  5. Ver contenido PDF analizado para leer PDF sin procesar.

IronPDF for Node.js

En mi última actualización de conocimientos, en enero de 2022, IronPDF era en gran medida una biblioteca .NET creada para funcionar dentro del marco .NET, lo que permitía a los desarrolladores trabajar con documentos PDF utilizando C# o VB.NET. Sin embargo, no existía una versión nativa o directa de IronPDF hecha sólo para Node.js.

Como IronPDF se ha ampliado para admitir e incluir bindings para Node.js, esto probablemente significa que las herramientas para crear, editar y procesar documentos PDF en aplicaciones Node.js ya están disponibles en IronPDF for Node.js.

Características de IronPDF

  • Generación de HTML a PDF: La capacidad de convertir contenidos HTML en documentos PDF.
  • La adición, alteración o eliminación de texto, formas, imágenes y otros elementos de archivos PDF se denomina manipulación de texto e imágenes.
  • Combinar, extraer páginas de archivos PDF, dividir archivos PDF y cifrarlos y descifrarlos son ejemplos de alteración de documentos PDF.
  • El manejo de formularios abarca la cumplimentación de formularios, la adquisición de datos de formularios y el aprovechamiento de formularios PDF mediante programación.
  • La seguridad de los PDF consiste en utilizar firmas digitales, cifrado y protección por contraseña para los documentos PDF.
  • La recuperación y modificación de archivos PDF se conoce como manejo de metadatos de página.

    Si IronPDF ha ampliado su gama de productos para incluir una versión Node.js, esto podría ofrecer a los desarrolladores de aplicaciones Node.js la posibilidad de utilizar las funciones de manipulación de PDF de IronPDF. Esto podría ser útil para los desarrolladores que prefieran trabajar con una biblioteca que ofrezca funciones similares a las de IronPDF en el entorno .NET.

    Siempre se debe consultar la documentación oficial, las notas de la versión o las actualizaciones del equipo de IronPDF para obtener la información más actual y actualizada sobre las características, la compatibilidad y la compatibilidad de IronPDF con Node.js. Las bibliotecas de software pueden haber crecido o alterado después de mi última actualización de conocimientos. Vaya aquí para obtener más información sobre IronPDF. Para más información sobre IronPDF aquí.

Requisitos del paquete

  • Visual Studio Code es el IDE
  • Node.js
  • Se puede utilizar Yarn o npm para la gestión de paquetes, que es necesaria para la instalación de paquetes.

Instalar el paquete IronPDF for Node.js

Abra el símbolo del sistema o el terminal: Abra el símbolo del sistema o el terminal. Hay varias formas de acceder a él en función de tu sistema operativo:

  • Windows: PowerShell o símbolo del sistema
  • Terminal en Mac OS X
  • Terminal en Linux

    Instala el paquete: Para instalar un paquete, utiliza el nombre del paquete y el comando npm install. Por ejemplo, para instalar el paquete @ironsoftware/ironpdf, ejecute el siguiente comando en el terminal:

 npm i @ironsoftware/ironpdf

Sustituya @ironsoftware/ironpdf por el nombre del paquete que desea instalar. Para instalar el paquete real.

Cómo analizar un documento PDF en Node.js: Figura 1 - Instalar IronPDF

Analizar archivos PDF para extraer datos

Experimentando, se puede ver que IronPDF ofrece un montón de características para facilitar el tratamiento de PDF en Node.js. Se concentra en generar, visualizar y modificar cualquier documento PDF en los formatos requeridos. Los archivos PDF son bastante fáciles de analizar.

const { PdfDocument } = require("@ironsoftware/ironpdf");
const pdfprocess = async () => {
  //  Cargar el documento PDF existente
  const pdf = await PdfDocument.fromFile("Demo.pdf");
  var data=await pdf.extractText();
  console.log(data);
};
pdfprocess();
JAVASCRIPT

La importancia de la función fromFile queda demostrada por el código anterior. El método fromFile que nos permite leer documentos PDF y convertir el archivo PDF en objetos PDFDocument, carga el archivo desde un sistema de archivos existente. Así, PdfDocument contiene los metadatos del PDF. Los metadatos del archivo en el objeto pdf pueden utilizarse como desee el usuario. Este objeto analiza los datos del documento, es decir, el texto y los gráficos contenidos en el objeto página PDF. La función extractText se utiliza para extraer todo el texto del archivo PDF proporcionado. Después de eso, el texto recuperado se guarda como una cadena y se prepara para el procesamiento adicional, como la creación de formato JSON.

Extracción de texto página por página

A continuación se muestra el código del segundo enfoque, que extrae explícitamente el texto de cada página del archivo PDF.

const pdf = await PdfDocument.fromFile("Demo.pdf");
  var pagecount = await pdf.getPageCount();
  for (var i = 0; i < pagecount; i++) {
    var spdf = await pdf.extractText(i);
    console.log(spdf);
  }
JAVASCRIPT

Este código de ejemplo carga desde el directorio especificado la lectura en bruto de un PDF que ya se encuentra en memoria en su totalidad y, a continuación, crea un objeto PdfDocument llamado pdf. Un documento PDF es una estructura de datos compuesta por varios tipos de objetos de datos fundamentales. Cada dato de página del archivo PDF se recupera utilizando su número de página o índice de página en el objeto PDF para garantizar que se procesa uno tras otro. En primer lugar, utilizamos el método PageCount de su objeto PDF para averiguar el número total de páginas del PDF suministrado.

El bucle For itera a través de cada página utilizando este recuento de páginas, invocando la función extractText para recuperar el texto de cada página PDF. El texto extraído puede mostrarse en la pantalla del usuario o guardarse en una variable de cadena. Por lo tanto, esta técnica permite extraer texto de páginas PDF individuales de forma organizada. Estas técnicas demuestran cómo IronPDF, una biblioteca Node.js hecha específicamente para trabajos con PDF, puede extraer texto de archivos PDF de forma fácil y minuciosa. Esta accesibilidad aumenta la utilidad de los PDF en diversos contextos y tiene numerosas aplicaciones prácticas.

Cómo analizar un documento PDF en Node.js: Figura 2 - Leer PDF Página a Página

Los dos códigos anteriores devuelven la misma salida, pero el único cambio es la implementación del código basada en los requisitos del usuario. Para más información sobre IronPDF aquí.

Conclusión

La biblioteca IronPDF ofrece sólidas medidas de seguridad para reducir los riesgos y garantizar la seguridad de los datos. Es compatible con todos los navegadores populares y no se limita a ninguno de ellos. Para adaptarse a las distintas demandas de los desarrolladores, la biblioteca ofrece una amplia gama de opciones de licencia, incluida una licencia gratuita para desarrolladores y licencias de desarrollo adicionales que pueden adquirirse.

Además de una licencia permanente, un año de mantenimiento del software y una garantía de devolución del dinero de treinta días, el paquete $749 Lite incluye posibilidades de actualización. Los usuarios tienen la oportunidad de evaluar el producto en circunstancias de aplicación práctica durante todo el periodo de prueba con marca de agua. Por favor, compruebe enlace para obtener más información sobre el coste, la licencia y la versión de prueba de IronPDF. Para conocer otros productos ofrecidos por Iron Software consulte el enlace aquí.

Cómo analizar un documento PDF en Node.js: Figura 3

< ANTERIOR
Cómo comprimir un archivo PDF en Node.js
SIGUIENTE >
Cómo descargar archivos PDF desde una URL en Node.js

¿Listo para empezar? Versión: 2024.3 recién publicada

Instalación gratuita de npm Ver licencias >