USO DE IRONPDF PARA NODE.JS

Cómo convertir PDF a texto en Node.js

Actualizado 4 de enero, 2024
Compartir:

Introducción

Los objetos PDF a texto en Node.js son una tarea común en muchas aplicaciones Node.js, especialmente cuando se trata de análisis de datos, sistemas de gestión de contenidos o incluso simples utilidades de conversión. Con el entorno Node.js y el archivo Biblioteca IronPDF los desarrolladores pueden convertir documentos PDF en datos de texto utilizables. Este tutorial pretende guiar a los principiantes a través del proceso de configuración de un proyecto Node.js para extraer texto de archivos de páginas PDF utilizando IronPDF, centrándose en aspectos clave como los detalles de instalación, la implementación del análisis de PDF, la gestión de errores y las aplicaciones prácticas.

Cómo convertir PDF a texto en NodeJS1. Crea una aplicación Node.js en tu IDE.

  1. Instala la librería PDF usando npm.3. Cargue las páginas PDF en la aplicación.
    1. Extraer el texto utilizando el método extractText.5. Utilizar el texto extraído para procesarlo y devolver los datos.

Requisitos previos

Antes de emprender este viaje, asegúrese de tener lo siguiente:

  • Node.js está instalado en su máquina.
  • Conocimientos básicos de JavaScript.
  • Un archivo PDF para probar el proceso de extracción de tiradas.

Configuración del proyecto Node.js

Paso 1: Inicializar tu aplicación Node.js

Crea un nuevo directorio para tu proyecto e inicia una aplicación Node.js:

mkdir pdf-to-text-node
cd pdf-to-text-node
npm init -y
mkdir pdf-to-text-node
cd pdf-to-text-node
npm init -y
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'mkdir pdf-@to-text-node cd pdf-@to-text-node npm init -y
VB   C#

Paso 2: Instalación de IronPDF

Instale IronPDF usando npm:

npm install ironpdf
npm install ironpdf
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'npm install ironpdf
VB   C#

Implementación de la conversión de PDF a texto con IronPDF

Paso 1: Importación de los módulos necesarios

import { PdfDocument } from "@ironsoftware/ironpdf";
import { IronPdfGlobalConfig } from "@ironsoftware/ironpdf";
import fs from "fs";
import { PdfDocument } from "@ironsoftware/ironpdf";
import { IronPdfGlobalConfig } from "@ironsoftware/ironpdf";
import fs from "fs";
import
If True Then
	PdfDocument
End If
from "@ironsoftware/ironpdf"
import
If True Then
	IronPdfGlobalConfig
End If
from "@ironsoftware/ironpdf"
import fs from "fs"
VB   C#

En este primer paso se importan los módulos necesarios. PdfDocument e IronPdfGlobalConfig se importan del paquete @ironsoftware/ironpdf, que son esenciales para trabajar con documentos PDF y configurar IronPDF, respectivamente. El módulo fs, un módulo central de Node.js, también se importa para manejar las operaciones del sistema de archivos.

Paso 2: Configuración de una función asíncrona

(async function createPDFs() {
  //  ...
})();
(async function createPDFs() {
  //  ...
})();
(async [function] createPDFs() { })()
VB   C#

Aquí, se define una función anónima asíncrona llamada createPDFs y se invoca inmediatamente. Esta configuración permite el uso de await dentro de la función, facilitando el manejo de operaciones asíncronas, que son comunes cuando se trata de E/S de archivos y librerías externas como IronPDF.

Paso 3: Aplicación de la clave de licencia

const IronPdfConfig = {
  licenseKey: "Your-License-Key",
};
IronPdfGlobalConfig.setConfig(IronPdfConfig);
const IronPdfConfig = {
  licenseKey: "Your-License-Key",
};
IronPdfGlobalConfig.setConfig(IronPdfConfig);
const IronPdfConfig = { licenseKey: "Your-License-Key"}
IronPdfGlobalConfig.setConfig(IronPdfConfig)
VB   C#

En este paso, se crea un objeto de configuración para IronPDF, incluyendo la clave de licencia, y se aplica esta configuración utilizando IronPdfGlobalConfig.setConfig. Esto es crucial para activar todas las funciones de IronPDF, especialmente si utiliza una versión con licencia.

Paso 4: Cargar el documento PDF

const pdf = await PdfDocument.fromFile("report.pdf");
const pdf = await PdfDocument.fromFile("report.pdf");
const pdf = Await PdfDocument.fromFile("report.pdf")
VB   C#

En este paso, el código utiliza correctamente el método fromFile de la clase PdfDocument para cargar un documento PDF existente. Se trata de una operación asíncrona, de ahí el uso de await. Especificando la ruta a su archivo PDF (en este caso, "old-report.pdf")la variable pdf se convierte en una representación de su documento PDF, totalmente cargado y listo para la extracción de texto. Este paso es crucial, ya que es donde se analiza el archivo PDF y se prepara para cualquier operación que desee realizar en él, como extraer texto.

Paso 5: Extraer texto del PDF

const text = await pdf.extractText();
const text = await pdf.extractText();
const text = Await pdf.extractText()
VB   C#

Aquí se llama al método extractText sobre el objeto pdf. Esta operación asíncrona extrae todo el texto del documento PDF cargado, almacenándolo en la variable text.

Paso 6: Procesamiento del texto extraído

const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);
const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);
const wordCount = text.split(/\s+/).length
console.log("Word Count:", wordCount)
VB   C#

En este paso, el texto extraído se procesa para contar el número de palabras. Esto se consigue dividiendo la cadena de texto en una matriz de palabras utilizando una expresión regular que coincida con uno o más caracteres de espacio en blanco y, a continuación, contando la longitud de la matriz resultante.

Paso 7: Guardar el texto extraído en un archivo

fs.writeFileSync("extracted_text.txt", extractedText);
fs.writeFileSync("extracted_text.txt", extractedText);
fs.writeFileSync("extracted_text.txt", extractedText)
VB   C#

Esta línea de código pretende guardar el texto extraído en un archivo llamado texto_extraído.txt. Sin embargo, aquí parece haber un error: la variable textoextraído no está definida en el código. Debe ser texto, que contiene el texto extraído:

fs.writeFileSync("extracted_text.txt", text);
fs.writeFileSync("extracted_text.txt", text);
fs.writeFileSync("extracted_text.txt", text)
VB   C#

Esta línea corregida utiliza el método writeFileSync del módulo fs para escribir de forma sincrónica el texto extraído en un archivo.

Paso 8: Tratamiento de errores

} catch (error) {
  console.error("An error occurred:", error); //error de registro
}
} catch (error) {
  console.error("An error occurred:", error); //error de registro
}
}
Catch e1 As [error]
  console.error("An error occurred:", [error]) 'error de registro
End Try
VB   C#

Por último, el código incluye un bloque try-catch para la gestión de errores. Si alguna parte de las operaciones asíncronas dentro del bloque try falla, el bloque catch capturará el error y el mensaje se registrará en la consola. Esto es importante para depurar y asegurarse de que su aplicación puede manejar problemas inesperados con gracia.

Código completo

A continuación se muestra el código completo que encapsula todos los pasos que hemos discutido para extraer texto de un documento PDF utilizando IronPDF en un entorno Node.js:

import { PdfDocument } from "@ironsoftware/ironpdf";
import { IronPdfGlobalConfig } from "@ironsoftware/ironpdf";
import fs from "fs";
(async function createPDFs() {
  try {
    //  Introduzca la clave de licencia
    const IronPdfConfig = {
      licenseKey: "Your-License-Key",
    };
    //  Establecer la configuración con la clave de licencia
    IronPdfGlobalConfig.setConfig(IronPdfConfig);
    //  Importar un documento PDF existente
    const pdf = await PdfDocument.fromFile("old-report.pdf");
    //  Obtener todo el texto para ponerlo en un índice de búsqueda
    const text = await pdf.extractText();
    //  Procesar el texto extraído
    //  Ejemplo: Contar palabras
    const wordCount = text.split(/\s+/).length;
    console.log("Word Count:", wordCount);
    //  Guardar el texto extraído en un archivo de texto
    fs.writeFileSync("extracted_text.txt", text);
    console.log("Extracted text saved to extracted_text.txt");
  } catch (error) {
    //  Gestione aquí los errores
    console.error("An error occurred:", error);
  }
})();
import { PdfDocument } from "@ironsoftware/ironpdf";
import { IronPdfGlobalConfig } from "@ironsoftware/ironpdf";
import fs from "fs";
(async function createPDFs() {
  try {
    //  Introduzca la clave de licencia
    const IronPdfConfig = {
      licenseKey: "Your-License-Key",
    };
    //  Establecer la configuración con la clave de licencia
    IronPdfGlobalConfig.setConfig(IronPdfConfig);
    //  Importar un documento PDF existente
    const pdf = await PdfDocument.fromFile("old-report.pdf");
    //  Obtener todo el texto para ponerlo en un índice de búsqueda
    const text = await pdf.extractText();
    //  Procesar el texto extraído
    //  Ejemplo: Contar palabras
    const wordCount = text.split(/\s+/).length;
    console.log("Word Count:", wordCount);
    //  Guardar el texto extraído en un archivo de texto
    fs.writeFileSync("extracted_text.txt", text);
    console.log("Extracted text saved to extracted_text.txt");
  } catch (error) {
    //  Gestione aquí los errores
    console.error("An error occurred:", error);
  }
})();
import
If True Then
	PdfDocument
End If
from "@ironsoftware/ironpdf"
import
If True Then
	IronPdfGlobalConfig
End If
from "@ironsoftware/ironpdf"
import fs from "fs"
(async [function] createPDFs() {
	try {
		const IronPdfConfig = { licenseKey:= "Your-License-Key"}; IronPdfGlobalConfig.setConfig(IronPdfConfig); const pdf = Await PdfDocument.fromFile("old-report.pdf"); const text = Await pdf.extractText(); const wordCount = text.split(/\s+/).length; console.log("Word Count:", wordCount); fs.writeFileSync("extracted_text.txt", text); console.log("Extracted text saved to extracted_text.txt");
	}
	catch ([error]) { console.error("An error occurred:", [error]); }
})()
VB   C#

Este script incluye todos los componentes necesarios para extraer texto de un archivo PDF: configurar IronPDF con una clave de licencia, cargar el documento PDF, extraer el texto, realizar un análisis de texto sencillo... (recuento de palabras en este caso)y guardando el texto extraído en un archivo. El código está envuelto en una función asíncrona para manejar la naturaleza asíncrona de las operaciones con archivos y el procesamiento de PDF en Node.js.

Análisis del resultado: PDF y texto extraído

Una vez ejecutado el script, obtendrá dos componentes clave para analizar: el archivo PDF original y el archivo de texto que contiene el texto extraído. Esta sección le guiará en la comprensión y evaluación de la salida del script.

El documento PDF original

El archivo PDF que elija para este proceso, en este caso, denominado "informe-viejo.pdf", es el punto de partida. Los documentos PDF pueden variar mucho en complejidad y contenido. Pueden contener un texto sencillo y directo o estar repletos de imágenes, tablas y diversos formatos de texto. La estructura y la complejidad de su PDF influirán directamente en el proceso de extracción.

Cómo convertir PDF a texto en Node.js: Figura 1 - PDF original

Archivo de texto extraído

Tras ejecutar el script, se creará un nuevo archivo de texto llamado "texto_extraído.txt". Este archivo contiene todo el texto extraído del documento PDF.

Cómo convertir PDF a texto en Node.js: Figura 2 - Texto Extraído

Y esta es la salida en la consola:

Cómo convertir PDF a texto en Node.js: Figura 3 - Salida de la consola

Aplicaciones prácticas y casos de uso

Minería y análisis de datos

Extraer texto de los PDF es especialmente útil en la minería y el análisis de datos. Ya se trate de extraer informes financieros, trabajos de investigación o cualquier otro documento PDF, la capacidad de convertir PDF a texto es crucial para las tareas de análisis de datos.

Sistemas de gestión de contenidos

En los sistemas de gestión de contenidos, a menudo es necesario manejar varios formatos de archivo. IronPDF puede ser un componente clave en un sistema que gestiona, archiva y recupera contenidos almacenados en formato PDF.

Conclusión

Cómo convertir PDF a texto en Node.js: Figura 4 - Licencia

Esta completa guía le ha guiado a través del proceso de configuración de un proyecto Node.js para extraer texto de documentos PDF utilizando IronPDF. Desde el manejo de la extracción de texto básica hasta la inmersión en funciones más complejas como la extracción de objetos de texto y la optimización del rendimiento, ahora está equipado con los conocimientos necesarios para implementar una extracción de texto de PDF eficiente en sus aplicaciones Node.js.

Recuerde que el viaje no termina aquí. El campo del procesamiento de PDF y la extracción de texto es muy amplio, con muchas más funciones y técnicas por explorar. Acepte el reto y siga mejorando sus conocimientos en este apasionante campo del desarrollo de software.

Vale la pena señalar que IronPDF ofrece un prueba gratuita para que los usuarios exploren sus posibilidades. Para quienes deseen integrar IronPDF en un entorno profesional, la licencia comienza a partir de $749.

< ANTERIOR
Cómo editar un archivo PDF en Node.js
SIGUIENTE >
Cómo dividir un archivo PDF en Node.js

¿Listo para empezar? Versión: 2024.3 recién publicada

Instalación gratuita de npm Ver licencias >