跳至页脚内容
使用 IRONPDF FOR NODE.JS

如何在 Node.js 中从 PDF 中提取图像

如何使用 IronPDF Node.js 从 PDF 文件中提取图像

  1. 设置一个 Node.js 应用程序。
  2. 安装 IronPDF NPM 包。
  3. 为提取准备 PDF。
  4. 从 PDF 文件中提取图像并保存。

前提条件

如果尚未安装 Node.js,请从 https://nodejs.org/ 下载并安装。

介绍 IronPDF NPM 包

IronPDF NPM 包是为 .NET 环境最初设计的 IronPDF 库的 Node.js 包装器。 它允许开发人员在 Node.js 应用程序中利用 IronPDF 强大的 PDF 操作能力。 此软件包在处理 PDF 文档时特别有用,提供了一系列在许多现实世界应用中有用的功能,如文件处理、报告生成等。

IronPDF 在 Node.js 中的关键特性

1.创建 PDF 文件:

IronPDF 可以从各种来源创建 PDF,包括 HTML 内容、图像或甚至原始文本。 此功能对需要生成报告、发票或其他 PDF 格式文档的 Web 应用程序非常有用。

IronPDF 支持样式和格式化 HTML 内容,是将网页转换为结构良好的 PDF 文档的绝佳选择。

  1. PDF 编辑:

    IronPDF 允许您通过添加文本、图像、注释和修改布局来操作现有的 PDF。 您还可以将多个 PDF 合并为一个大文件,拆分为更小的部分,甚至重新排序 PDF 中的页面。

    这些功能使其成为需要动态修改 PDF 的应用程序的理想选择,例如文档管理系统或需要自动化文档生成的应用程序。

  2. PDF转换:

    IronPDF 的一个突出功能是其将 PDF 转换为各种其他格式的能力。 例如,它可以将 PDF 文档转换为图像(PNG、JPEG)、HTML 和 Word 格式。

    当您需要以不同格式展示 PDF 内容或为用户界面创建 PDF 的图像预览时,此功能特别有用。

4.提取文本和图像:

虽然 IronPDF 没有直接的 REST API 来提取原始图像,但它提供了一种将 PDF 页面呈现为图像(如 PNG 或 JPEG)的方法,这可以视为提取内容的间接方法。

您可以将 PDF 的每个页面呈现为图像,有效地捕获文档的视觉表示,并保存以供后续使用或展示。

5.将页面渲染为图像:

IronPDF 可以将 PDF 页面转换为高质量的图像。 例如,您可以将多页 PDF 转换为一系列 PNG,每页一个。 当您需要将页面显示为缩略图或以图像格式展示时,这尤其有用。 它支持各种图像格式类型。

6.安全性和加密:

IronPDF 支持处理加密的 PDF。 它允许您打开、解密和操作加密文档,这对于处理需要密码或其他形式保护的文档至关重要。

7.跨平台兼容性:

IronPDF 与 Windows 和 Linux 环境兼容,是服务端应用程序的多功能工具。 Node.js 包装器简化了 IronPDF 集成到基于 Node.js 应用程序中的过程。

步骤 1:设置 Node.js 应用程序

首先,通过在本地计算机上创建一个文件夹并打开 Visual Studio Code 来设置 Node.js 项目文件夹。

mkdir PdfImageExtractor
cd PdfImageExtractor
code .
mkdir PdfImageExtractor
cd PdfImageExtractor
code .
SHELL

步骤 2:安装 IronPDF NPM 包

根据 Windows 或 Linux 机器安装 IronPDF Node.js 包及其支持包

npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64
npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64
SHELL

该软件包@ironsoftware/ironpdf-engine-windows-x64是IronPDF库的一个平台特定版本,专门为Windows 64位系统设计。

1. 针对 Windows 的特定平台二进制文件(64 位)

IronPDF 库有特定平台依赖项。 为了让 Node.js 高效地与 IronPDF 一起工作,它需要针对特定操作系统和架构定制的原生二进制文件。 在这种情况下,@ironsoftware/ironpdf-engine-windows-x64软件包为Windows 64位环境提供本地引擎。

2. 优化性能

通过使用这个专为 Windows 设计的包,您可以确保 IronPDF 库在基于 Windows 的系统上最佳运行。 它确保所有原生依赖项,如与 PDF 渲染和操作相关的项,在您的机器上都是兼容的并顺利运作的。

3. 简化安装

无需手动管理和配置Windows 64位系统所需的二进制文件,安装@ironsoftware/ironpdf-engine-windows-x64软件包可以自动化此过程。 这节省了时间并消除了潜在的兼容性问题。

4. 跨平台兼容性

IronPDF 还支持其他平台,如 macOS 和 Linux。 提供特定平台的软件包,允许开发人员为其操作系统使用正确的二进制文件,以改善库的整体稳定性和可靠性。

5. 特定功能的要求

如果您在使用某些 IronPDF 功能(如将 PDF 渲染为图像或执行复杂的文档操作),则需要原生引擎。 @ironsoftware/ironpdf-engine-windows-x64软件包专为基于Windows的环境包含此引擎。

步骤 3:为提取准备 PDF

现在获取需要提取的 PDF 文件。 复制路径以便在应用程序中使用。 本文使用以下文件。

如何在Node.js中从PDF中提取图像:图1 - 示例文件

步骤 4:从 PDF 文件中提取图像并保存

现在使用上述步骤中的文件,并在Node.js项目文件夹中的app.js文件中编写以下代码片段。

const fs = require('fs');
const { IronPdfGlobalConfig, PdfDocument } = require('@ironsoftware/ironpdf')

// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";

(async () => {
    // Extracting Image and Text content from Pdf Documents

    // Import existing PDF document
    const pdf = await PdfDocument.fromFile("ironPDF.pdf");

    // Get all text to put in a search index and log it
    const text = await pdf.extractText();
    console.log('All Text: ' + text);

    // Get all Images as buffers
    const imagesBuffer = await pdf.extractRawImages();
    console.log('Images count: ' + imagesBuffer.length);

    // Save the first extracted image to the local file system
    fs.writeFileSync("./file1.jpg", imagesBuffer[0]);

    // Indicate completion
    console.log('Complete!');
})();

运行应用程序:

node app.js
node app.js
SHELL

代码解释

此代码片段示例演示了如何在 Node.js 中使用 IronPDF 库从 PDF 文档中提取文本和图像(JPG 格式)。

  1. 许可证设置:使用IronPdfGlobalConfig设置IronPDF的许可证密钥,这是使用库功能所需的。

  2. PDF加载:代码使用ironPDF.pdf。 这允许程序处理 PDF 的内容。

  3. 文本提取:使用extractText()方法从加载的PDF中提取所有文本。 此文本可以用于索引或搜索文档等任务。

  4. 图像提取:使用extractRawImages()方法从PDF中提取原始图像。 这些图像以缓冲区返回,可以保存或进一步处理。

  5. 图像保存:提取的图像使用Node的fs.writeFileSync()方法保存为JPG文件到本地文件系统。

6.最终输出:提取完成后,程序会打印出提取的文本、提取的图像数量,然后保存第一张图像。

代码展示了如何在 Node.js 中使用 IronPDF 与 PDF 文件进行交互以提取内容并处理它。

输出

如何在Node.js中从PDF中提取图像:图2 - 控制台输出

如何在Node.js中从PDF中提取图像:图3 - 图像输出

许可(提供试用)

IronPDF Node.js 需要许可证密钥才能工作。 开发人员可以使用他们的电子邮件 ID 从 许可证页面 获取临时许可证。 一旦您提供了电子邮件 ID,密钥将发送到电子邮件,并可以在应用程序中如下使用。

const { IronPdfGlobalConfig } = require('@ironsoftware/ironpdf')

// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";

结论

在 Node.js 中使用 IronPDF 从 PDF 中提取图像提供了处理 PDF 内容的强大且高效的方法。 虽然 IronPDF 不像一些专业的工具那样提供直接的图像提取,但它允许您将 PDF 页面渲染为图像,对于创建文档的视觉表示很有用。

该库能够以简单的方式从 PDF 中提取文本和图像,使其成为需要处理和操作 PDF 内容的应用程序的有用工具。 与 Node.js 的集成允许开发人员轻松地将 PDF 提取融入到 Web 或服务端应用程序中。

总体而言,IronPDF 是一个强大的 PDF 操作解决方案,提供灵活性以转换、保存和从 PDF 中提取图像,使其适用于广泛的使用场景,如文档索引、预览生成和内容提取。 但是,如果您的重点只是从 PDF 中提取嵌入的图像,那么寻找其他库可能会提供更专业的解决方案。

常见问题解答

我如何使用Node.js从PDF文件中提取图像?

您可以在Node.js中利用IronPDF将PDF页面渲染为图像,并可将其保存为文件。这涉及设置Node.js项目、安装IronPDF以及使用其方法将PDF页面转换为图像格式。

要在Node.js中设置IronPDF以提取图像,您需要创建Node.js项目,安装IronPDF NPM包,并使用IronPDF的功能加载PDF文档,将页面渲染为图像。

要在Node.js中安装IronPDF用于提取图像,您需要创建一个Node.js项目,安装IronPDF NPM包,然后使用IronPDF的功能加载PDF文档并将其页面渲染为图像。

IronPDF能直接在Node.js中从PDF中提取图像吗?

IronPDF不能直接提取图像,但可以将PDF页面渲染为图像。这些渲染图像可以保存,高效地允许您从PDF中提取图像内容。

在Node.js环境中使用IronPDF的前提条件是什么?

前提条件包括安装Node.js,设置项目目录,并安装IronPDF NPM包,以及任何特定平台的包,例如Windows 64位版本以获得最佳性能。

你如何在Node.js中使用IronPDF处理PDF操作任务?

IronPDF允许您在Node.js中执行创建、编辑、转换和从PDF中提取内容的任务。您可以使用IronPDF方法加载PDF并根据需要操作。

在Node.js中使用IronPDF进行PDF操作是否需要许可证?

是的,使用IronPDF的全部功能需要许可证。您可以通过在IronPDF网站上注册电子邮件获取试用许可证。

在Node.js中直接从PDF中提取图像可能需要什么附加库?

虽然IronPDF可以将页面渲染为图像,但对于直接图像提取,您可能会考虑使用专门从PDF文件中直接提取嵌入图像的附加库。

此网页提供关于在Node.js环境中使用IronPDF提取并保存PDF文件图像的开发者教程,详述与IronPDF NPM包的集成。

提取图像从PDF Node.js

Darrius Serrant
全栈软件工程师(WebOps)

Darrius Serrant 拥有迈阿密大学的计算机科学学士学位,目前在 Iron Software 担任全栈 WebOps 市场工程师。从小就被编码吸引,他认为计算机既神秘又易于接触,使其成为创意和问题解决的理想媒介。

在 Iron Software,Darrius 喜欢创造新事物,并简化复杂概念以使其更易理解。作为我们常驻的开发者之一,他还自愿教授学生,与下一代分享他的专业知识。

对于 Darrius 来说,他的工作令人满意,因为它被重视并产生真正的影响。

Iron Support Team

We're online 24 hours, 5 days a week.
Chat
Email
Call Me