如何在 Node.js 中从 PDF 中提取图像
如何使用 IronPDF Node.js 从 PDF 文件中提取图像
- 设置一个 Node.js 应用程序。
- 安装 IronPDF NPM 包。
- 为提取准备 PDF。
- 从 PDF 文件中提取图像并保存。
前提条件
如果尚未安装 Node.js,请从 https://nodejs.org/ 下载并安装。
介绍 IronPDF NPM 包
IronPDF NPM 包是为 .NET 环境最初设计的 IronPDF 库的 Node.js 包装器。 它允许开发人员在 Node.js 应用程序中利用 IronPDF 强大的 PDF 操作能力。 此软件包在处理 PDF 文档时特别有用,提供了一系列在许多现实世界应用中有用的功能,如文件处理、报告生成等。
IronPDF 在 Node.js 中的关键特性
PDF 创建:
IronPDF 可以从各种来源创建 PDF,包括 HTML 内容、图像或甚至原始文本。 此功能对需要生成报告、发票或其他 PDF 格式文档的 Web 应用程序非常有用。
IronPDF 支持样式和格式化 HTML 内容,是将网页转换为结构良好的 PDF 文档的绝佳选择。
PDF 编辑:
IronPDF 允许您通过添加文本、图像、注释和修改布局来操作现有的 PDF。 您还可以将多个 PDF 合并为一个大文件,拆分为更小的部分,甚至重新排序 PDF 中的页面。
这些功能使其成为需要动态修改 PDF 的应用程序的理想选择,例如文档管理系统或需要自动化文档生成的应用程序。
PDF 转换:
IronPDF 的一个突出功能是其将 PDF 转换为各种其他格式的能力。 例如,它可以将 PDF 文档转换为图像(PNG、JPEG)、HTML 和 Word 格式。
当您需要以不同格式展示 PDF 内容或为用户界面创建 PDF 的图像预览时,此功能特别有用。
提取文本和图像:
虽然 IronPDF 没有直接的 REST API 来提取原始图像,但它提供了一种将 PDF 页面呈现为图像(如 PNG 或 JPEG)的方法,这可以视为提取内容的间接方法。
您可以将 PDF 的每个页面呈现为图像,有效地捕获文档的视觉表示,并保存以供后续使用或展示。
将页面呈现为图像:
IronPDF 可以将 PDF 页面转换为高质量的图像。 例如,您可以将多页 PDF 转换为一系列 PNG,每页一个。 当您需要将页面显示为缩略图或以图像格式展示时,这尤其有用。 它支持各种图像格式类型。
安全性和加密:
IronPDF 支持处理加密的 PDF。 它允许您打开、解密和操作加密文档,这对于处理需要密码或其他形式保护的文档至关重要。
跨平台兼容性:
IronPDF 与 Windows 和 Linux 环境兼容,是服务端应用程序的多功能工具。 Node.js 包装器简化了 IronPDF 集成到基于 Node.js 应用程序中的过程。
步骤 1:设置 Node.js 应用程序
首先,通过在本地计算机上创建一个文件夹并打开 Visual Studio Code 来设置 Node.js 项目文件夹。
mkdir PdfImageExtractor
cd PdfImageExtractor
code .mkdir PdfImageExtractor
cd PdfImageExtractor
code .步骤 2:安装 IronPDF NPM 包
根据 Windows 或 Linux 机器安装 IronPDF Node.js 包及其支持包
npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64包 @Iron Software/ironpdf-engine-windows-x64 是 IronPDF 库的特定平台版本,专为 Windows 64 位系统设计。
1. 针对 Windows 的特定平台二进制文件(64 位)
IronPDF 库有特定平台依赖项。 为了让 Node.js 高效地与 IronPDF 一起工作,它需要针对特定操作系统和架构定制的原生二进制文件。 在这种情况下,@Iron Software/ironpdf-engine-windows-x64 包提供了适用于 Windows 64 位 环境的原生引擎。
2. 优化性能
通过使用这个专为 Windows 设计的包,您可以确保 IronPDF 库在基于 Windows 的系统上最佳运行。 它确保所有原生依赖项,如与 PDF 渲染和操作相关的项,在您的机器上都是兼容的并顺利运作的。
3. 简化安装
无需手动管理和配置 Windows 64 位系统所需的二进制文件,安装 @Iron Software/ironpdf-engine-windows-x64 包会自动完成这个过程。 这节省了时间并消除了潜在的兼容性问题。
4. 跨平台兼容性
IronPDF 还支持其他平台,如 macOS 和 Linux。 提供特定平台的软件包,允许开发人员为其操作系统使用正确的二进制文件,以改善库的整体稳定性和可靠性。
5. 特定功能的要求
如果您在使用某些 IronPDF 功能(如将 PDF 渲染为图像或执行复杂的文档操作),则需要原生引擎。 @Iron Software/ironpdf-engine-windows-x64 包包含此引擎,专为基于 Windows 的环境量身打造。
步骤 3:为提取准备 PDF
现在获取需要提取的 PDF 文件。 复制路径以便在应用程序中使用。 本文使用以下文件。

步骤 4:从 PDF 文件中提取图像并保存
现在使用上一步中的文件,并在 Node.js 项目文件夹中的 app.js 文件中写入以下代码片段。
const fs = require('fs');
const { IronPdfGlobalConfig, PdfDocument } = require('@ironsoftware/ironpdf')
// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";
(async () => {
// Extracting Image and Text content from Pdf Documents
// Import existing PDF document
const pdf = await PdfDocument.fromFile("ironPDF.pdf");
// Get all text to put in a search index and log it
const text = await pdf.extractText();
console.log('All Text: ' + text);
// Get all Images as buffers
const imagesBuffer = await pdf.extractRawImages();
console.log('Images count: ' + imagesBuffer.length);
// Save the first extracted image to the local file system
fs.writeFileSync("./file1.jpg", imagesBuffer[0]);
// Indicate completion
console.log('Complete!');
})();运行应用程序:
node app.jsnode app.js代码解释
此代码片段示例演示了如何在 Node.js 中使用 IronPDF 库从 PDF 文档中提取文本和图像(JPG 格式)。
许可证设置:
IronPdfGlobalConfig用于设置 IronPDF 的许可证密钥,这是使用库功能所需的。PDF 加载:代码使用
PdfDocument.fromFile()方法加载名为ironPDF.pdf的 PDF 文档。 这允许程序处理 PDF 的内容。文本提取:
extractText()方法用于提取从加载的 PDF 中提取所有文本。 此文本可以用于索引或搜索文档等任务。图像提取:
extractRawImages()方法用于从 PDF 中提取原始图像。 这些图像以缓冲区返回,可以保存或进一步处理。保存图像:提取的图像使用 Node 的
fs.writeFileSync()方法以 JPG 文件形式保存到本地文件系统。- 最终输出:提取完成后,程序输出提取的文本、提取的图像数量,并保存第一幅图像。
代码展示了如何在 Node.js 中使用 IronPDF 与 PDF 文件进行交互以提取内容并处理它。
输出


许可(提供试用)
IronPDF Node.js 需要许可证密钥才能工作。 开发人员可以使用他们的电子邮件 ID 从 许可证页面 获取临时许可证。 一旦您提供了电子邮件 ID,密钥将发送到电子邮件,并可以在应用程序中如下使用。
const { IronPdfGlobalConfig } = require('@ironsoftware/ironpdf')
// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";结论
在 Node.js 中使用 IronPDF 从 PDF 中提取图像提供了处理 PDF 内容的强大且高效的方法。 虽然 IronPDF 不像一些专业的工具那样提供直接的图像提取,但它允许您将 PDF 页面渲染为图像,对于创建文档的视觉表示很有用。
该库能够以简单的方式从 PDF 中提取文本和图像,使其成为需要处理和操作 PDF 内容的应用程序的有用工具。 与 Node.js 的集成允许开发人员轻松地将 PDF 提取融入到 Web 或服务端应用程序中。
总体而言,IronPDF 是一个强大的 PDF 操作解决方案,提供灵活性以转换、保存和从 PDF 中提取图像,使其适用于广泛的使用场景,如文档索引、预览生成和内容提取。 但是,如果您的重点只是从 PDF 中提取嵌入的图像,那么寻找其他库可能会提供更专业的解决方案。
常见问题解答
我如何使用Node.js从PDF文件中提取图像?
您可以在Node.js中利用IronPDF将PDF页面渲染为图像,并可将其保存为文件。这涉及设置Node.js项目、安装IronPDF以及使用其方法将PDF页面转换为图像格式。
要在Node.js中设置IronPDF以提取图像,您需要创建Node.js项目,安装IronPDF NPM包,并使用IronPDF的功能加载PDF文档,将页面渲染为图像。
要在Node.js中安装IronPDF用于提取图像,您需要创建一个Node.js项目,安装IronPDF NPM包,然后使用IronPDF的功能加载PDF文档并将其页面渲染为图像。
IronPDF能直接在Node.js中从PDF中提取图像吗?
IronPDF不能直接提取图像,但可以将PDF页面渲染为图像。这些渲染图像可以保存,高效地允许您从PDF中提取图像内容。
在Node.js环境中使用IronPDF的前提条件是什么?
前提条件包括安装Node.js,设置项目目录,并安装IronPDF NPM包,以及任何特定平台的包,例如Windows 64位版本以获得最佳性能。
你如何在Node.js中使用IronPDF处理PDF操作任务?
IronPDF允许您在Node.js中执行创建、编辑、转换和从PDF中提取内容的任务。您可以使用IronPDF方法加载PDF并根据需要操作。
在Node.js中使用IronPDF进行PDF操作是否需要许可证?
是的,使用IronPDF的全部功能需要许可证。您可以通过在IronPDF网站上注册电子邮件获取试用许可证。
在Node.js中直接从PDF中提取图像可能需要什么附加库?
虽然IronPDF可以将页面渲染为图像,但对于直接图像提取,您可能会考虑使用专门从PDF文件中直接提取嵌入图像的附加库。
此网页提供关于在Node.js环境中使用IronPDF提取并保存PDF文件图像的开发者教程,详述与IronPDF NPM包的集成。
提取图像从PDF Node.js








