跳至页脚内容
使用 IRONPDF FOR NODE.JS

如何在 Node.js 中从 PDF 中提取图像

如何使用 IronPDF Node.js 从 PDF 文件中提取图像

  1. 设置一个 Node.js 应用程序。
  2. 安装 IronPDF NPM 包。
  3. 为提取准备 PDF。
  4. 从 PDF 文件中提取图像并保存。

前提条件

如果尚未安装 Node.js,请从 https://nodejs.org/ 下载并安装。

介绍 IronPDF NPM 包

IronPDF NPM 包是为 .NET 环境最初设计的 IronPDF 库的 Node.js 包装器。 它允许开发人员在 Node.js 应用程序中利用 IronPDF 强大的 PDF 操作能力。 此软件包在处理 PDF 文档时特别有用,提供了一系列在许多现实世界应用中有用的功能,如文件处理、报告生成等。

IronPDF 在 Node.js 中的关键特性

  1. PDF 创建

    IronPDF 可以从各种来源创建 PDF,包括 HTML 内容、图像或甚至原始文本。 此功能对需要生成报告、发票或其他 PDF 格式文档的 Web 应用程序非常有用。

    IronPDF 支持样式和格式化 HTML 内容,是将网页转换为结构良好的 PDF 文档的绝佳选择。

  2. PDF 编辑

    IronPDF 允许您通过添加文本、图像、注释和修改布局来操作现有的 PDF。 您还可以将多个 PDF 合并为一个大文件,拆分为更小的部分,甚至重新排序 PDF 中的页面。

    这些功能使其成为需要动态修改 PDF 的应用程序的理想选择,例如文档管理系统或需要自动化文档生成的应用程序。

  3. PDF 转换

    IronPDF 的一个突出功能是其将 PDF 转换为各种其他格式的能力。 例如,它可以将 PDF 文档转换为图像(PNG、JPEG)、HTML 和 Word 格式。

    当您需要以不同格式展示 PDF 内容或为用户界面创建 PDF 的图像预览时,此功能特别有用。

  4. 提取文本和图像

    虽然 IronPDF 没有直接的 REST API 来提取原始图像,但它提供了一种将 PDF 页面呈现为图像(如 PNG 或 JPEG)的方法,这可以视为提取内容的间接方法。

    您可以将 PDF 的每个页面呈现为图像,有效地捕获文档的视觉表示,并保存以供后续使用或展示。

  5. 将页面呈现为图像

    IronPDF 可以将 PDF 页面转换为高质量的图像。 例如,您可以将多页 PDF 转换为一系列 PNG,每页一个。 当您需要将页面显示为缩略图或以图像格式展示时,这尤其有用。 它支持各种图像格式类型。

  6. 安全性和加密

    IronPDF 支持处理加密的 PDF。 它允许您打开、解密和操作加密文档,这对于处理需要密码或其他形式保护的文档至关重要。

  7. 跨平台兼容性

    IronPDF 与 Windows 和 Linux 环境兼容,是服务端应用程序的多功能工具。 Node.js 包装器简化了 IronPDF 集成到基于 Node.js 应用程序中的过程。

步骤 1:设置 Node.js 应用程序

首先,通过在本地计算机上创建一个文件夹并打开 Visual Studio Code 来设置 Node.js 项目文件夹。

mkdir PdfImageExtractor
cd PdfImageExtractor
code .
mkdir PdfImageExtractor
cd PdfImageExtractor
code .
SHELL

步骤 2:安装 IronPDF NPM 包

根据 Windows 或 Linux 机器安装 IronPDF Node.js 包及其支持包

npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64
npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64
SHELL

@ironsoftware/ironpdf-engine-windows-x64 是 IronPDF 库的特定平台版本,专为 Windows 64 位系统设计。

1. 针对 Windows 的特定平台二进制文件(64 位)

IronPDF 库有特定平台依赖项。 为了让 Node.js 高效地与 IronPDF 一起工作,它需要针对特定操作系统和架构定制的原生二进制文件。 在这种情况下,@ironsoftware/ironpdf-engine-windows-x64 包提供了适用于 Windows 64 位 环境的原生引擎。

2. 优化性能

通过使用这个专为 Windows 设计的包,您可以确保 IronPDF 库在基于 Windows 的系统上最佳运行。 它确保所有原生依赖项,如与 PDF 渲染和操作相关的项,在您的机器上都是兼容的并顺利运作的。

3. 简化安装

无需手动管理和配置 Windows 64 位系统所需的二进制文件,安装 @ironsoftware/ironpdf-engine-windows-x64 包会自动完成这个过程。 这节省了时间并消除了潜在的兼容性问题。

4. 跨平台兼容性

IronPDF 还支持其他平台,如 macOS 和 Linux。 提供特定平台的软件包,允许开发人员为其操作系统使用正确的二进制文件,以改善库的整体稳定性和可靠性。

5. 特定功能的要求

如果您在使用某些 IronPDF 功能(如将 PDF 渲染为图像或执行复杂的文档操作),则需要原生引擎。 @ironsoftware/ironpdf-engine-windows-x64 包包含此引擎,专为基于 Windows 的环境量身打造。

步骤 3:为提取准备 PDF

现在获取需要提取的 PDF 文件。 复制路径以便在应用程序中使用。 本文使用以下文件。

如何从 PDF 中提取图像到 Node.js:图 1 - 示例文件

步骤 4:从 PDF 文件中提取图像并保存

现在使用上一步中的文件,并在 Node.js 项目文件夹中的 app.js 文件中写入以下代码片段。

const fs = require('fs');
const { IronPdfGlobalConfig, PdfDocument } = require('@ironsoftware/ironpdf')

// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";

(async () => {
    // Extracting Image and Text content from Pdf Documents

    // Import existing PDF document
    const pdf = await PdfDocument.fromFile("ironPDF.pdf");

    // Get all text to put in a search index and log it
    const text = await pdf.extractText();
    console.log('All Text: ' + text);

    // Get all Images as buffers
    const imagesBuffer = await pdf.extractRawImages();
    console.log('Images count: ' + imagesBuffer.length);

    // Save the first extracted image to the local file system
    fs.writeFileSync("./file1.jpg", imagesBuffer[0]);

    // Indicate completion
    console.log('Complete!');
})();

运行应用程序:

node app.js
node app.js
SHELL

代码解释

此代码片段示例演示了如何在 Node.js 中使用 IronPDF 库从 PDF 文档中提取文本和图像(JPG 格式)。

  1. 许可证设置IronPdfGlobalConfig 用于设置 IronPDF 的许可证密钥,这是使用库功能所需的。

  2. PDF 加载:代码使用 PdfDocument.fromFile() 方法加载名为 ironPDF.pdf 的 PDF 文档。 这允许程序处理 PDF 的内容。

  3. 文本提取extractText() 方法用于提取从加载的 PDF 中提取所有文本。 此文本可以用于索引或搜索文档等任务。

  4. 图像提取extractRawImages() 方法用于从 PDF 中提取原始图像。 这些图像以缓冲区返回,可以保存或进一步处理。

  5. 保存图像:提取的图像使用 Node 的 fs.writeFileSync() 方法以 JPG 文件形式保存到本地文件系统。

  6. 最终输出:提取完成后,程序输出提取的文本、提取的图像数量,并保存第一幅图像。

代码展示了如何在 Node.js 中使用 IronPDF 与 PDF 文件进行交互以提取内容并处理它。

输出

如何从 PDF 中提取图像到 Node.js:图 2 - 控制台输出

如何从 PDF 中提取图像到 Node.js:图 3 - 图像输出

许可(提供试用)

IronPDF Node.js 需要许可证密钥才能工作。 开发人员可以使用他们的电子邮件 ID 从 许可证页面 获取临时许可证。 一旦您提供了电子邮件 ID,密钥将发送到电子邮件,并可以在应用程序中如下使用。

const { IronPdfGlobalConfig } = require('@ironsoftware/ironpdf')

// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";

结论

在 Node.js 中使用 IronPDF 从 PDF 中提取图像提供了处理 PDF 内容的强大且高效的方法。 虽然 IronPDF 不像一些专业的工具那样提供直接的图像提取,但它允许您将 PDF 页面渲染为图像,对于创建文档的视觉表示很有用。

该库能够以简单的方式从 PDF 中提取文本和图像,使其成为需要处理和操作 PDF 内容的应用程序的有用工具。 与 Node.js 的集成允许开发人员轻松地将 PDF 提取融入到 Web 或服务端应用程序中。

总体而言,IronPDF 是一个强大的 PDF 操作解决方案,提供灵活性以转换、保存和从 PDF 中提取图像,使其适用于广泛的使用场景,如文档索引、预览生成和内容提取。 但是,如果您的重点只是从 PDF 中提取嵌入的图像,那么寻找其他库可能会提供更专业的解决方案。

常见问题解答

我如何使用Node.js从PDF文件中提取图像?

您可以在Node.js中利用IronPDF将PDF页面渲染为图像,并可将其保存为文件。这涉及设置Node.js项目、安装IronPDF以及使用其方法将PDF页面转换为图像格式。

安装IronPDF用于在Node.js中提取图像需要什么步骤?

要在Node.js中安装IronPDF用于提取图像,您需要创建一个Node.js项目,安装IronPDF NPM包,然后使用IronPDF的功能加载PDF文档并将其页面渲染为图像。

IronPDF能直接在Node.js中从PDF中提取图像吗?

IronPDF不能直接提取图像,但可以将PDF页面渲染为图像。这些渲染图像可以保存,高效地允许您从PDF中提取图像内容。

在Node.js环境中使用IronPDF的前提条件是什么?

前提条件包括安装Node.js,设置项目目录,并安装IronPDF NPM包,以及任何特定平台的包,例如Windows 64位版本以获得最佳性能。

你如何在Node.js中使用IronPDF处理PDF操作任务?

IronPDF允许您在Node.js中执行创建、编辑、转换和从PDF中提取内容的任务。您可以使用IronPDF方法加载PDF并根据需要操作。

在Node.js中使用IronPDF进行PDF操作是否需要许可证?

是的,使用IronPDF的全部功能需要许可证。您可以通过在IronPDF网站上注册电子邮件获取试用许可证。

在Node.js中直接从PDF中提取图像可能需要什么附加库?

虽然IronPDF可以将页面渲染为图像,但对于直接图像提取,您可能会考虑使用专门从PDF文件中直接提取嵌入图像的附加库。

是什么让IronPDF成为在Node.js应用中处理PDF的强大选择?

IronPDF的强大性能、与Node.js的轻松集成以及用于PDF创建、编辑和内容提取的全面功能使其适合用于网页和文档处理应用。

Darrius Serrant
全栈软件工程师(WebOps)

Darrius Serrant 拥有迈阿密大学的计算机科学学士学位,目前在 Iron Software 担任全栈 WebOps 市场工程师。从小就被编码吸引,他认为计算机既神秘又易于接触,使其成为创意和问题解决的理想媒介。

在 Iron Software,Darrius 喜欢创造新事物,并简化复杂概念以使其更易理解。作为我们常驻的开发者之一,他还自愿教授学生,与下一代分享他的专业知识。

对于 Darrius 来说,他的工作令人满意,因为它被重视并产生真正的影响。