USO DE IRONPDF FOR NODE.JS

Cómo convertir PDF a texto en Node.js

Name: IronPDF
Brand: Iron Software
Availability: InStock

Regan Pun

4 de enero, 2024

Introducción

La conversión de PDF a texto en Node.js es una tarea común en muchas aplicaciones, especialmente cuando se trata de análisis de datos, sistemas de gestión de contenidos o incluso simples utilidades de conversión. Con el entorno Node.js y el archivoBiblioteca IronPDFlos desarrolladores puedenconvertir documentos PDF en datos de texto utilizables. Este tutorial pretende guiar a los principiantes a través del proceso de configuración de un proyecto Node.js para extraer texto de archivos de páginas PDF utilizando IronPDF, centrándose en aspectos clave como los detalles de instalación, la implementación del análisis de PDF, la gestión de errores y las aplicaciones prácticas.

Cómo convertir PDF a texto en NodeJS

Cree una aplicación Node.js en su IDE.
Instale la biblioteca PDF utilizando npm.
Cargue las páginas PDF en la aplicación.
Extraiga el texto utilizando el método extractText.
Utilice el texto extraído para procesar y devolver datos.

Requisitos previos

Antes de emprender este viaje, asegúrese de tener lo siguiente:

*Node.js está instalado en su máquina.

Conocimientos básicos de JavaScript.
Un archivo PDF para probar el proceso de extracción de tiradas.

Configuración del proyecto Node.js

Paso 1: Inicializar tu aplicación Node.js

Crea un nuevo directorio para tu proyecto e inicia una aplicación Node.js:

mkdir pdf-to-text-node
cd pdf-to-text-node
npm init -y

Paso 2: Instalación de IronPDF

Instale IronPDF usando npm:

npm install ironpdf

Implementación de la conversión de PDF a texto con IronPDF

Paso 1: Importación de los módulos necesarios

import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";

import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";

JAVASCRIPT

En este primer paso se importan los módulos necesarios. PdfDocument e IronPdfGlobalConfig se importan del paquete @ironpdf/ironpdf, que son esenciales para trabajar con documentos PDF y configurar IronPDF, respectivamente. El módulo fs, un módulo central de Node.js, también se importa para manejar las operaciones del sistema de archivos.

Paso 2: Configuración de una función asíncrona

(async function createPDFs() {
  // ...
})();

(async function createPDFs() {
  // ...
})();

JAVASCRIPT

Aquí, se define una función anónima asíncrona llamada createPDFs y se invoca inmediatamente. Esta configuración permite el uso de await dentro de la función, facilitando el manejo de operaciones asíncronas, que son comunes cuando se trata de E/S de archivos y librerías externas como IronPDF.

Paso 3: Aplicación de la clave de licencia

const IronPdfConfig = {
  licenseKey: "Your-License-Key",
};
IronPdfGlobalConfig.setConfig(IronPdfConfig);

const IronPdfConfig = {
  licenseKey: "Your-License-Key",
};
IronPdfGlobalConfig.setConfig(IronPdfConfig);

JAVASCRIPT

En este paso, se crea un objeto de configuración para IronPDF, incluyendo la clave de licencia, y se aplica esta configuración utilizando IronPdfGlobalConfig.setConfig. Esto es crucial para activar todas las funciones de IronPDF, especialmente si utiliza una versión con licencia.

Paso 4: Cargar el documento PDF

const pdf = await PdfDocument.fromFile("report.pdf");

const pdf = await PdfDocument.fromFile("report.pdf");

JAVASCRIPT

En este paso, el código utiliza correctamente el método fromFile de la clase PdfDocument para cargar un documento PDF existente. Se trata de una operación asíncrona, de ahí el uso de await. Especificando la ruta a su archivo PDF(en este caso, "old-report.pdf")la variable pdf se convierte en una representación de su documento PDF, totalmente cargado y listo para la extracción de texto. Este paso es crucial, ya que es donde se analiza el archivo PDF y se prepara para cualquier operación que desee realizar en él, como extraer texto.

Paso 5: Extraer texto del PDF

const text = await pdf.extractText();

const text = await pdf.extractText();

JAVASCRIPT

Aquí se llama al método extractText sobre el objeto pdf. Esta operación asíncrona extrae todo el texto del documento PDF cargado, almacenándolo en la variable text.

Paso 6: Procesamiento del texto extraído

const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);

const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);

JAVASCRIPT

En este paso, el texto extraído se procesa para contar el número de palabras. Esto se consigue dividiendo la cadena de texto en una matriz de palabras utilizando una expresión regular que coincida con uno o más caracteres de espacio en blanco y, a continuación, contando la longitud de la matriz resultante.

Paso 7: Guardar el texto extraído en un archivo

fs.writeFileSync("extracted_text.txt", text);

fs.writeFileSync("extracted_text.txt", text);

JAVASCRIPT

Esta línea corregida utiliza el método writeFileSync del módulo fs para escribir de forma sincrónica el texto extraído en un archivo.

Paso 8: Tratamiento de errores

} catch (error) {
  console.error("An error occurred:", error); //log error
}

} catch (error) {
  console.error("An error occurred:", error); //log error
}

JAVASCRIPT

Por último, el código incluye un bloque try-catch para la gestión de errores. Si alguna parte de las operaciones asíncronas dentro del bloque try falla, el bloque catch capturará el error y el mensaje se registrará en la consola. Esto es importante para depurar y asegurarse de que su aplicación puede manejar problemas inesperados con gracia.

Código completo

A continuación se muestra el código completo que encapsula todos los pasos que hemos discutido para extraer texto de un documento PDF utilizando IronPDF en un entorno Node.js:

import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";
(async function createPDFs() {
  try {
    // Input the license key
    const IronPdfConfig = {
      licenseKey: "Your-License-Key",
    };
    // Set the config with the license key
    IronPdfGlobalConfig.setConfig(IronPdfConfig);
    // Import existing PDF document
    const pdf = await PdfDocument.fromFile("old-report.pdf");
    // Get all text to put in a search index
    const text = await pdf.extractText();
    // Process the extracted text
    // Example: Count words
    const wordCount = text.split(/\s+/).length;
    console.log("Word Count:", wordCount);
    // Save the extracted text to a text file
    fs.writeFileSync("extracted_text.txt", text);
    console.log("Extracted text saved to extracted_text.txt");
  } catch (error) {
    // Handle errors here
    console.error("An error occurred:", error);
  }
})();

import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";
(async function createPDFs() {
  try {
    // Input the license key
    const IronPdfConfig = {
      licenseKey: "Your-License-Key",
    };
    // Set the config with the license key
    IronPdfGlobalConfig.setConfig(IronPdfConfig);
    // Import existing PDF document
    const pdf = await PdfDocument.fromFile("old-report.pdf");
    // Get all text to put in a search index
    const text = await pdf.extractText();
    // Process the extracted text
    // Example: Count words
    const wordCount = text.split(/\s+/).length;
    console.log("Word Count:", wordCount);
    // Save the extracted text to a text file
    fs.writeFileSync("extracted_text.txt", text);
    console.log("Extracted text saved to extracted_text.txt");
  } catch (error) {
    // Handle errors here
    console.error("An error occurred:", error);
  }
})();

JAVASCRIPT

Este script incluye todos los componentes necesarios para extraer texto de un archivo PDF: configurar IronPDF con una clave de licencia, cargar el documento PDF, extraer el texto, realizar un análisis de texto sencillo...(recuento de palabras en este caso)y guardando el texto extraído en un archivo. El código está envuelto en una función asíncrona para manejar la naturaleza asíncrona de las operaciones con archivos y el procesamiento de PDF en Node.js.

Análisis del resultado: PDF y texto extraído

Una vez ejecutado el script, obtendrá dos componentes clave para analizar: el archivo PDF original y el archivo de texto que contiene el texto extraído. Esta sección le guiará en la comprensión y evaluación de la salida del script.

El documento PDF original

El archivo PDF que elija para este proceso, en este caso, denominado "informe-viejo.pdf", es el punto de partida. Los documentos PDF pueden variar mucho en complejidad y contenido. Pueden contener un texto sencillo y directo o estar repletos de imágenes, tablas y diversos formatos de texto. La estructura y la complejidad de su PDF influirán directamente en el proceso de extracción.

Cómo convertir PDF a texto en Node.js: Figura 1 - PDF original

Archivo de texto extraído

Tras ejecutar el script, se creará un nuevo archivo de texto llamado "texto_extraído.txt". Este archivo contiene todo el texto extraído del documento PDF.

Cómo convertir PDF a texto en Node.js: Figura 2 - Texto Extraído

Y esta es la salida en la consola:

Cómo convertir PDF a texto en Node.js: Figura 3 - Salida de la consola

Aplicaciones prácticas y casos de uso

Minería y análisis de datos

Extraer texto de los PDF es especialmente útil en la minería y el análisis de datos. Ya se trate de extraer informes financieros, trabajos de investigación o cualquier otro documento PDF, la capacidad de convertir PDF a texto es crucial para las tareas de análisis de datos.

Sistemas de gestión de contenidos

En los sistemas de gestión de contenidos, a menudo es necesario manejar varios formatos de archivo. IronPDF puede ser un componente clave en un sistema que gestiona, archiva y recupera contenidos almacenados en formato PDF.

Conclusión

Cómo convertir PDF a texto en Node.js: Figura 4 - Licencia

Esta completa guía le ha guiado a través del proceso de configuración de un proyecto Node.js para extraer texto de documentos PDF utilizando IronPDF. Desde el manejo de la extracción de texto básica hasta la inmersión en funciones más complejas como la extracción de objetos de texto y la optimización del rendimiento, ahora está equipado con los conocimientos necesarios para implementar una extracción de texto de PDF eficiente en sus aplicaciones Node.js.

Recuerde que el viaje no termina aquí. El campo del procesamiento de PDF y la extracción de texto es muy amplio, con muchas más funciones y técnicas por explorar. Acepte el reto y siga mejorando sus conocimientos en este apasionante campo del desarrollo de software.

Vale la pena señalar que IronPDF ofrece unprueba gratuita para usuarios. Para quienes deseen integrar IronPDF en un entorno profesional, existen opciones de licencia.

Regan Pun

Chatea con el equipo de ingeniería ahora

Ingeniero de software

Regan se licenció en Ingeniería Electrónica por la Universidad de Reading. Antes de incorporarse a Iron Software, sus anteriores puestos de trabajo le obligaban a centrarse en tareas concretas; lo que más le gusta de Iron Software es la variedad de tareas que puede realizar, ya sea añadiendo valor a las ventas, el soporte técnico, el desarrollo de productos o el marketing. Le gusta entender cómo utilizan los desarrolladores la biblioteca de Iron Software y utilizar ese conocimiento para mejorar continuamente la documentación y desarrollar los productos.

< ANTERIOR
Cómo editar un archivo PDF en Node.js

SIGUIENTE >
Cómo dividir un archivo PDF en Node.js