USO DE IRONPDF FOR NODE.JS

Cómo extraer imágenes de PDF en Node.js

Extraer imágenes de archivos PDF es una tarea común para muchos desarrolladores, ya sea para el procesamiento de archivos, la extracción de datos o la creación de vistas previas de documentos. En este artículo, exploraremos cómo extraer y guardar imágenes de un PDF usando IronPDF, una potente biblioteca PDF disponible para .NET, y cómo puede integrarse en un entorno Node.js a través de su paquete NPM.

Cómo extraer imágenes de archivos PDF usando IronPDF Node.js

  1. Configurar una aplicación Node.js.

  2. Instale los paquetes NPM de IronPDF.

  3. Prepare un PDF para la extracción.

  4. Extraer imágenes del archivo PDF y guardar.

Requisitos previos

Si aún no has instalado Node.js, descárgalo e instálalo desde https://nodejs.org/.

Presentando el paquete NPM de IronPDF

El paquete NPM de IronPDF es un contenedor de Node.js para la biblioteca IronPDF, originalmente diseñada para entornos .NET. Permite a los desarrolladores aprovechar las potentes capacidades de manipulación de PDF de IronPDF en aplicaciones de Node.js. Este paquete es particularmente útil para trabajar con documentos PDF, ofreciendo una gama de características que pueden ser útiles en muchas aplicaciones del mundo real, como el procesamiento de archivos, la generación de informes y más.

Características clave de IronPDF en Node.js

  1. Creación de PDF:

    IronPDF puede crear PDF a partir de diversas fuentes, incluyendo contenido HTML, imágenes o incluso texto sin formato. Esta característica es muy útil para aplicaciones web que necesitan generar informes, facturas u cualquier otro documento en formato PDF.

    IronPDF admite el estilo y formato de contenido HTML, lo que lo convierte en una excelente opción para convertir páginas web en documentos PDF bien estructurados.

  2. Edición de PDF:

    IronPDF te permite manipular archivos PDF existentes añadiendo texto, imágenes o anotaciones, y modificando el diseño. También puedes combinar varios PDF en uno, dividir un documento grande en partes más pequeñas o incluso reordenar las páginas dentro de un PDF.

    Estas funciones lo hacen ideal para aplicaciones que necesitan modificar dinámicamente archivos PDF, como los sistemas de gestión de documentos o aplicaciones que requieren la generación automática de documentos.

  3. Conversión de PDF:

    Una de las características destacadas de IronPDF es su capacidad para convertir PDFs en varios otros formatos. Por ejemplo, puede convertir documentos PDF a imágenes (PNG, JPEG), HTML y formatos Word.

    Esta característica es particularmente útil cuando necesitas presentar el contenido de un PDF en diferentes formatos o crear vistas previas de imágenes de PDFs para interfaces de usuario.

  4. Extracción de texto e imágenes:

    Aunque IronPDF no tiene una API REST directa para extraer imágenes en crudo de un PDF, sí proporciona un método para renderizar las páginas de PDF como imágenes (como PNG o JPEG), lo que se puede usar como una forma indirecta de extraer contenido.

    Puedes renderizar cada página del PDF en una imagen, capturando efectivamente la representación visual del documento y guardándola para su uso o visualización posterior.

  5. Renderizando Páginas como Imágenes:

    IronPDF puede convertir páginas de PDF en imágenes de alta calidad. Por ejemplo, puedes convertir un PDF de varias páginas en una serie de PNGs, uno por cada página. Esto es particularmente útil cuando necesitas mostrar las páginas como miniaturas o en un formato basado en imágenes. Admite varios tipos de formatos de imagen.

  6. Seguridad y Cifrado:

    IronPDF admite trabajar con PDFs cifrados. Le permite abrir, descifrar y manipular documentos protegidos, lo cual es esencial para trabajar con documentos que requieren contraseñas u otras formas de protección.

  7. Compatibilidad Multiplataforma:

    IronPDF es compatible con entornos tanto de Windows como de Linux, lo que lo convierte en una herramienta versátil para aplicaciones del lado del servidor. El contenedor de Node.js simplifica el proceso de integrar IronPDF en aplicaciones basadas en Node.js.

Paso 1: Configurar una aplicación de Node.js

Para empezar, configure la carpeta del proyecto de Node.js creando una carpeta en la máquina local y abriendo Visual Studio Code.

mkdir PdfImageExtractor
cd PdfImageExtractor
code .
mkdir PdfImageExtractor
cd PdfImageExtractor
code .
SHELL

Paso 2: Instalar los paquetes NPM de IronPDF

Instala el paquete de Node.js de IronPDF y su paquete de soporte según las máquinas Windows o Linux.

npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64
npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64
SHELL

El paquete @ironsoftware/ironpdf-engine-windows-x64 es una versión específica de la plataforma de la biblioteca IronPDF, diseñada específicamente para sistemas Windows de 64 bits.

Binario específico de plataforma para Windows (64 bits)

La biblioteca IronPDF tiene dependencias específicas de la plataforma. Para que Node.js funcione eficientemente con IronPDF, requiere binarios nativos que están adaptados para sistemas operativos y arquitecturas específicas. En este caso, el paquete @ironsoftware/ironpdf-engine-windows-x64 proporciona el motor nativo para entornos Windows de 64 bits.

Rendimiento Optimizado

Al utilizar este paquete específico de Windows, aseguras que la biblioteca IronPDF funcione de manera óptima en sistemas basados en Windows. Garantiza que todas las dependencias nativas, como las relacionadas con la representación y manipulación de PDF, sean compatibles y funcionen sin problemas en su máquina.

3. Simplificación de la instalación

En lugar de gestionar y configurar manualmente los binarios necesarios para sistemas Windows de 64 bits, la instalación del paquete @ironsoftware/ironpdf-engine-windows-x64 automatiza este proceso. Esto ahorra tiempo y elimina posibles problemas de compatibilidad.

4. Compatibilidad multiplataforma

IronPDF también es compatible con otras plataformas como macOS y Linux. Proporcionar paquetes específicos de la plataforma permite a los desarrolladores usar el binario adecuado para su sistema operativo, mejorando la estabilidad y fiabilidad general de la biblioteca.

5. Requerido para ciertas funciones

Si estás utilizando ciertas características de IronPDF (como renderizar PDFs a imágenes o realizar manipulaciones complejas de documentos), se requiere el motor nativo. El paquete @ironsoftware/ironpdf-engine-windows-x64 incluye este motor específicamente para entornos basados en Windows.

Paso 3: Prepare un PDF para la extracción

Ahora obtén el archivo PDF que necesita ser extraído. Copie la ruta para ser utilizada en la aplicación. Este artículo utiliza el siguiente archivo.

Cómo extraer imágenes de un PDF en Node.js: Figura 1 - Archivo de muestra

Paso 4: Extraer imágenes del archivo PDF y guardar

Ahora utiliza el archivo en el paso anterior y escribe el siguiente fragmento de código en un archivo app.js en la carpeta del proyecto Node.js.

const fs = require('fs');
const { IronPdfGlobalConfig, PdfDocument } = require('@ironsoftware/ironpdf')
// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";
 (async () => {
    // Extracting Image and Text content from Pdf Documents
    // Import existing PDF document
    const pdf = await PdfDocument.fromFile("ironPDF.pdf");
    // Get all text to put in a search index and log it
    const text = await pdf.extractText();
    console.log('All Text:'+text);
    // Get all Images
    const imagesBuffer = await pdf.extractRawImages();
    console.log('images count:'+imagesBuffer.length);
    fs.writeFileSync("./file1.jpg", imagesBuffer[0]);
   // this code can also be in rest api
})();
var msg = 'Complete!';
console.log(msg); //log complete in console
js
JAVASCRIPT

Ejecuta la aplicación:

node app.js
node app.js
SHELL

Código Explicación

Este ejemplo de fragmento de código demuestra cómo utilizar la biblioteca IronPDF en Node.js para extraer texto e imágenes (formato JPG) de un documento PDF.

  1. Configuración de la Licencia: El IronPdfGlobalConfig se utiliza para establecer la clave de licencia para IronPDF, que es necesaria para utilizar las características de la biblioteca.

  2. Carga de PDF: El código carga un documento PDF (ironPDF.pdf) utilizando el método PdfDocument.fromFile(). Esto permite que el programa trabaje con el contenido del PDF.

  3. Extracción de Texto: El método extractText() se utiliza para extraer todo el texto del PDF cargado. Este texto se puede usar para tareas como indexar o buscar dentro del documento.

  4. Extracción de imágenes: El método extractRawImages() se utiliza para extraer imágenes sin procesar del PDF. Estas imágenes se devuelven como un búfer, que se puede guardar o procesar más.

  5. Guardando Imágenes: Las imágenes extraídas se guardan en el sistema de archivos local como archivos JPG utilizando el método fs.writeFileSync() de Node.

  6. Salida final: Una vez que se completa la extracción, el programa imprime el texto extraído y el número de imágenes extraídas, seguido de guardar la primera imagen.

    El código demuestra cómo interactuar con archivos PDF utilizando IronPDF para extraer contenido y procesarlo dentro de un entorno Node.js.

Salida

Cómo extraer imágenes de PDF en Node.js: Figura 2 - Salida de consola

Cómo extraer imágenes de PDF en Node.js: Figura 3 - Salida de imagen

Licencia (prueba disponible)

IronPDF Node.js requiere una clave de licencia para funcionar. Los desarrolladores pueden obtener una licencia de prueba utilizando su correo electrónico desde la página de licencias. Una vez que proporcione el ID de correo electrónico, la clave se enviará al correo electrónico y podrá usarse en la aplicación como se indica a continuación.

const { IronPdfGlobalConfig} = require('@ironsoftware/ironpdf')
// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";
js
JAVASCRIPT

Conclusión

Usar IronPDF en Node.js para extraer imágenes de archivos PDF ofrece una manera robusta y eficiente de manejar contenido PDF. Aunque IronPDF no ofrece extracción directa de imágenes como algunas herramientas especializadas, permite renderizar páginas PDF como imágenes, lo cual es útil para crear representaciones visuales del documento.

La capacidad de la biblioteca para extraer tanto texto como imágenes de PDFs de manera sencilla la convierte en una herramienta valiosa para aplicaciones que necesitan procesar y manipular contenido PDF. Su integración con Node.js permite a los desarrolladores incorporar fácilmente la extracción de PDF en aplicaciones web o del lado del servidor.

En general, IronPDF es una solución poderosa para la manipulación de PDFs, ofreciendo flexibilidad para convertir, guardar y extraer imágenes de PDFs, lo que lo hace adecuado para una amplia variedad de casos de uso como la indexación de documentos, la generación de vistas previas y la extracción de contenido. Sin embargo, si tu enfoque se centra exclusivamente en extraer imágenes incrustadas de archivos PDF, explorar bibliotecas adicionales podría ofrecer soluciones más especializadas.

Darrius Serrant
Ingeniero de Software Full Stack (WebOps)

Darrius Serrant tiene una licenciatura en Informática de la Universidad de Miami y trabaja como Ingeniero de Marketing WebOps Full Stack en Iron Software. Atraído por la programación desde una edad temprana, veía la computación como algo misterioso y accesible, lo que la convertía en el medio perfecto para la creatividad y la resolución de problemas.

En Iron Software, Darrius disfruta creando cosas nuevas y simplificando conceptos complejos para hacerlos más comprensibles. Como uno de nuestros desarrolladores residentes, también se ha ofrecido como voluntario para enseñar a los estudiantes, compartiendo su experiencia con la próxima generación.

Para Darrius, su trabajo es gratificante porque es valorado y tiene un impacto real.

SIGUIENTE >
Cómo editar un archivo PDF en Node.js

¿Listo para empezar? Versión: 2025.5 acaba de salir

Ver licencias >