Pruebas en un entorno real
Pruebe en producción sin marcas de agua.
Funciona donde lo necesites.
La conversión de PDF a texto en Node.js es una tarea común en muchas aplicaciones, especialmente cuando se trata de análisis de datos, sistemas de gestión de contenidos o incluso simples utilidades de conversión. Con el entorno Node.js y el archivoBiblioteca IronPDFlos desarrolladores puedenconvertir documentos PDF en datos de texto utilizables. Este tutorial pretende guiar a los principiantes a través del proceso de configuración de un proyecto Node.js para extraer texto de archivos de páginas PDF utilizando IronPDF, centrándose en aspectos clave como los detalles de instalación, la implementación del análisis de PDF, la gestión de errores y las aplicaciones prácticas.
Cree una aplicación Node.js en su IDE.
Instale la biblioteca PDF utilizando npm.
Cargue las páginas PDF en la aplicación.
Extraiga el texto utilizando el método extractText.
Antes de emprender este viaje, asegúrese de tener lo siguiente:
*Node.js está instalado en su máquina.
Crea un nuevo directorio para tu proyecto e inicia una aplicación Node.js:
mkdir pdf-to-text-node
cd pdf-to-text-node
npm init -y
mkdir pdf-to-text-node
cd pdf-to-text-node
npm init -y
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'mkdir pdf-@to-text-node cd pdf-@to-text-node npm init -y
Instale IronPDF usando npm:
npm install ironpdf
npm install ironpdf
'INSTANT VB TODO TASK: The following line uses invalid syntax:
'npm install ironpdf
import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";
import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";
import
If True Then
PdfDocument
End If
from "@ironpdf/ironpdf"
import
If True Then
IronPdfGlobalConfig
End If
from "@ironpdf/ironpdf"
import fs from "fs"
En este primer paso se importan los módulos necesarios. PdfDocument e IronPdfGlobalConfig se importan del paquete @ironpdf/ironpdf, que son esenciales para trabajar con documentos PDF y configurar IronPDF, respectivamente. El módulo fs, un módulo central de Node.js, también se importa para manejar las operaciones del sistema de archivos.
(async function createPDFs() {
// ...
})();
(async function createPDFs() {
// ...
})();
(async [function] createPDFs() { })()
Aquí, se define una función anónima asíncrona llamada createPDFs y se invoca inmediatamente. Esta configuración permite el uso de await dentro de la función, facilitando el manejo de operaciones asíncronas, que son comunes cuando se trata de E/S de archivos y librerías externas como IronPDF.
const IronPdfConfig = {
licenseKey: "Your-License-Key",
};
IronPdfGlobalConfig.setConfig(IronPdfConfig);
const IronPdfConfig = {
licenseKey: "Your-License-Key",
};
IronPdfGlobalConfig.setConfig(IronPdfConfig);
const IronPdfConfig = { licenseKey: "Your-License-Key"}
IronPdfGlobalConfig.setConfig(IronPdfConfig)
En este paso, se crea un objeto de configuración para IronPDF, incluyendo la clave de licencia, y se aplica esta configuración utilizando IronPdfGlobalConfig.setConfig. Esto es crucial para activar todas las funciones de IronPDF, especialmente si utiliza una versión con licencia.
const pdf = await PdfDocument.fromFile("report.pdf");
const pdf = await PdfDocument.fromFile("report.pdf");
const pdf = Await PdfDocument.fromFile("report.pdf")
En este paso, el código utiliza correctamente el método fromFile de la clase PdfDocument para cargar un documento PDF existente. Se trata de una operación asíncrona, de ahí el uso de await. Especificando la ruta a su archivo PDF(en este caso, "old-report.pdf")la variable pdf se convierte en una representación de su documento PDF, totalmente cargado y listo para la extracción de texto. Este paso es crucial, ya que es donde se analiza el archivo PDF y se prepara para cualquier operación que desee realizar en él, como extraer texto.
const text = await pdf.extractText();
const text = await pdf.extractText();
const text = Await pdf.extractText()
Aquí se llama al método extractText sobre el objeto pdf. Esta operación asíncrona extrae todo el texto del documento PDF cargado, almacenándolo en la variable text.
const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);
const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);
const wordCount = text.split(/\s+/).length
console.log("Word Count:", wordCount)
En este paso, el texto extraído se procesa para contar el número de palabras. Esto se consigue dividiendo la cadena de texto en una matriz de palabras utilizando una expresión regular que coincida con uno o más caracteres de espacio en blanco y, a continuación, contando la longitud de la matriz resultante.
fs.writeFileSync("extracted_text.txt", text);
fs.writeFileSync("extracted_text.txt", text);
fs.writeFileSync("extracted_text.txt", text)
Esta línea corregida utiliza el método writeFileSync del módulo fs para escribir de forma sincrónica el texto extraído en un archivo.
} catch (error) {
console.error("An error occurred:", error); //log error
}
} catch (error) {
console.error("An error occurred:", error); //log error
}
}
Catch e1 As [error]
console.error("An error occurred:", [error]) 'log error
End Try
Por último, el código incluye un bloque try-catch para la gestión de errores. Si alguna parte de las operaciones asíncronas dentro del bloque try falla, el bloque catch capturará el error y el mensaje se registrará en la consola. Esto es importante para depurar y asegurarse de que su aplicación puede manejar problemas inesperados con gracia.
A continuación se muestra el código completo que encapsula todos los pasos que hemos discutido para extraer texto de un documento PDF utilizando IronPDF en un entorno Node.js:
import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";
(async function createPDFs() {
try {
// Input the license key
const IronPdfConfig = {
licenseKey: "Your-License-Key",
};
// Set the config with the license key
IronPdfGlobalConfig.setConfig(IronPdfConfig);
// Import existing PDF document
const pdf = await PdfDocument.fromFile("old-report.pdf");
// Get all text to put in a search index
const text = await pdf.extractText();
// Process the extracted text
// Example: Count words
const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);
// Save the extracted text to a text file
fs.writeFileSync("extracted_text.txt", text);
console.log("Extracted text saved to extracted_text.txt");
} catch (error) {
// Handle errors here
console.error("An error occurred:", error);
}
})();
import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";
(async function createPDFs() {
try {
// Input the license key
const IronPdfConfig = {
licenseKey: "Your-License-Key",
};
// Set the config with the license key
IronPdfGlobalConfig.setConfig(IronPdfConfig);
// Import existing PDF document
const pdf = await PdfDocument.fromFile("old-report.pdf");
// Get all text to put in a search index
const text = await pdf.extractText();
// Process the extracted text
// Example: Count words
const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);
// Save the extracted text to a text file
fs.writeFileSync("extracted_text.txt", text);
console.log("Extracted text saved to extracted_text.txt");
} catch (error) {
// Handle errors here
console.error("An error occurred:", error);
}
})();
import
If True Then
PdfDocument
End If
from "@ironpdf/ironpdf"
import
If True Then
IronPdfGlobalConfig
End If
from "@ironpdf/ironpdf"
import fs from "fs"
(async [function] createPDFs() {
try {
const IronPdfConfig = { licenseKey:= "Your-License-Key"}; IronPdfGlobalConfig.setConfig(IronPdfConfig); const pdf = Await PdfDocument.fromFile("old-report.pdf"); const text = Await pdf.extractText(); const wordCount = text.split(/\s+/).length; console.log("Word Count:", wordCount); fs.writeFileSync("extracted_text.txt", text); console.log("Extracted text saved to extracted_text.txt");
}
catch ([error]) { console.error("An error occurred:", [error]); }
})()
Este script incluye todos los componentes necesarios para extraer texto de un archivo PDF: configurar IronPDF con una clave de licencia, cargar el documento PDF, extraer el texto, realizar un análisis de texto sencillo...(recuento de palabras en este caso)y guardando el texto extraído en un archivo. El código está envuelto en una función asíncrona para manejar la naturaleza asíncrona de las operaciones con archivos y el procesamiento de PDF en Node.js.
Una vez ejecutado el script, obtendrá dos componentes clave para analizar: el archivo PDF original y el archivo de texto que contiene el texto extraído. Esta sección le guiará en la comprensión y evaluación de la salida del script.
El archivo PDF que elija para este proceso, en este caso, denominado "informe-viejo.pdf", es el punto de partida. Los documentos PDF pueden variar mucho en complejidad y contenido. Pueden contener un texto sencillo y directo o estar repletos de imágenes, tablas y diversos formatos de texto. La estructura y la complejidad de su PDF influirán directamente en el proceso de extracción.
Tras ejecutar el script, se creará un nuevo archivo de texto llamado "texto_extraído.txt". Este archivo contiene todo el texto extraído del documento PDF.
Y esta es la salida en la consola:
Extraer texto de los PDF es especialmente útil en la minería y el análisis de datos. Ya se trate de extraer informes financieros, trabajos de investigación o cualquier otro documento PDF, la capacidad de convertir PDF a texto es crucial para las tareas de análisis de datos.
En los sistemas de gestión de contenidos, a menudo es necesario manejar varios formatos de archivo. IronPDF puede ser un componente clave en un sistema que gestiona, archiva y recupera contenidos almacenados en formato PDF.
Esta completa guía le ha guiado a través del proceso de configuración de un proyecto Node.js para extraer texto de documentos PDF utilizando IronPDF. Desde el manejo de la extracción de texto básica hasta la inmersión en funciones más complejas como la extracción de objetos de texto y la optimización del rendimiento, ahora está equipado con los conocimientos necesarios para implementar una extracción de texto de PDF eficiente en sus aplicaciones Node.js.
Recuerde que el viaje no termina aquí. El campo del procesamiento de PDF y la extracción de texto es muy amplio, con muchas más funciones y técnicas por explorar. Acepte el reto y siga mejorando sus conocimientos en este apasionante campo del desarrollo de software.
Vale la pena señalar que IronPDF ofrece unprueba gratuita para usuarios. Para quienes deseen integrar IronPDF en un entorno profesional, existen opciones de licencia.
9 productos API .NET para sus documentos de oficina