使用IRONPDF FOR NODE.JS

如何在Node.js中解析PDF文档

本文将演示如何使用 IronPDF、PDF 解析器 Node.js 库使用 Node.js 解析 PDF。

什么是 Node?

跨平台、开源的 Node.js JavaScript 运行环境允许在网络浏览器之外执行 JavaScript 代码。 程序员可以通过启用服务器端 JavaScript 或 JS 模块执行功能,创建可扩展、快速、高效的网络应用程序。 由于 Node.js 是一种事件驱动、无阻塞的 I/O 模型,因此非常适合开发同时管理多个连接和交互式表单元素的实时应用程序。

Node.js 经常用于创建各种应用程序,包括网络服务器、API、数据结构流式传输应用程序、实时聊天应用程序、物联网 (IoT) 设备等。 综上所述,Node.js 因其高效、快速以及前端和后端的 JavaScript 兼容性而越来越受欢迎,为全栈开发提供了一种单一语言。 请查看此解释网站以获取文档页面,了解更多关于Node.js的信息。

如何在 Node.js 中解析 PDF 文档

  1. 要对 PDF 进行可读流解析,请下载 Node.js 软件包。

  2. 安装 IronPDF for Node.js 库。

  3. 使用解析后的文档数据创建新的 PDF 或导入现有 PDF。

  4. 要提取每行文本,请使用extractText方法。

  5. 查看解析后的 PDF 内容,进行原始 PDF 阅读。

IronPDF for Node.js

在我上次于 2022 年 1 月进行知识更新时,IronPDF 主要是一个在 .NET Framework 中构建的.NET 库,使开发人员能够使用 C# 或 VB.NET 处理 PDF 文档。 然而,IronPDF 并没有专为 Node.js 制作的原生或直接版本。

随着 IronPDF 扩展到支持 Node.js 并包含 Node.js 的绑定,这可能意味着在 Node.js 应用程序中创建、编辑和处理 PDF 文档的工具现在可以在 IronPDF for Node.js 中使用。

IronPDF 的功能

  • HTML 转换为 PDF:将 HTML 内容转换为 PDF 文档的能力。
  • 在PDF文件中添加、修改或删除文本、形状、图像及其他元素被称为文本和图像操作
  • 合并、从PDF文件中提取页面、拆分PDF文件以及加密和解密都是PDF文档更改的例子。
  • 表单处理 包括完成表单、获取表单数据以及通过编程利用 PDF 表单。
  • PDF安全是指对PDF文档进行数字签名、加密和密码保护
  • 检索和修改 PDF 文件被称为页面元数据处理。

    如果 IronPDF 扩展了产品范围,加入了 Node.js 版本,这将为制作 Node.js 应用程序的开发人员提供使用 IronPDF 的 PDF 操作功能的途径。 这对于那些希望在 .NET 环境中使用与 IronPDF 功能类似的库的开发人员可能会有所帮助。

    有关 IronPDF 的功能、兼容性和对 Node.js 的支持的最新信息,应始终参考 IronPDF 团队的官方文档、发行说明或更新。 点击此处了解更多有关 IronPDF 和每个版本中新功能的信息。 要了解更多关于IronPDF的信息,请参阅此官方文档页面

软件包要求

  • Visual Studio Code 是集成开发环境
  • Node.js
  • 可以使用 Yarn 或 npm 进行软件包管理,这是安装软件包所必需的。

安装 IronPDF Node.js 软件包

启动命令提示符或终端:打开命令提示符或终端。 根据您的操作系统,有多种访问方式:

  • 视窗:PowerShell 或命令提示符
  • Mac OS X 上的终端
  • Linux 终端

    将软件包放在一起:要安装软件包,请使用软件包名称和 npm install 命令。 例如,要安装软件包@ironsoftware/ironpdf,请在终端中执行以下命令:

npm i @ironsoftware/ironpdf

@ironsoftware/ironpdf替换为您想要安装的软件包名称。 安装实际软件包。

如何在 Node.js 中解析 PDF 文档,图 1:安装 IronPDF

安装 IronPDF

解析 PDF 文件以提取数据

通过实验,您可以看到 IronPDF 提供了很多功能,方便在 Node.js 中处理 PDF。 翻译的重点是以所需格式生成、查看和修改任何 PDF 文档。 PDF 文件的解析非常简单。

const { PdfDocument } = require("@ironsoftware/ironpdf");

const pdfprocess = async () => {
  // Load the existing PDF document
  const pdf = await PdfDocument.fromFile("Demo.pdf");
  var data = await pdf.extractText();
  console.log(data);
};
pdfprocess();
js
JAVASCRIPT

fromFile 函数的重要性已通过上述代码展示。 fromFile 方法允许读取 PDF 文档并将 PDF 文件转换为 PdfDocument 对象,从现有文件系统加载文件。 因此,PdfDocument 保存了PDF的元数据。 pdf 对象中的文件元数据可根据用户需要使用。 该对象解析的文档数据是 PDF 页面对象中包含的文本和图形。 extractText函数用于从提供的PDF文件中提取所有文本。之后,检索到的文本被保存为字符串并准备进行其他处理,例如创建JSON格式。

逐页提取文本

以下是第二种方法的代码,它显式地从PDF文件的每一页中提取文本。

const pdf = await PdfDocument.fromFile("Demo.pdf");
var pagecount = await pdf.getPageCount();
for (var i = 0; i < pagecount; i++) {
  var spdf = await pdf.extractText(i);
  console.log(spdf);
}
js
JAVASCRIPT

从内存中已经存在的 PDF 读取的原始 PDF 被此示例代码从指定目录完整加载,然后创建一个名为 pdf 的PdfDocument对象。 PDF 文档是由几种基本数据对象组成的数据结构。 PDF 文件中的每个页面数据都使用 PDF 对象中的页码或页面索引进行检索,以确保一个接一个地进行处理。 首先,我们使用其 PDF 对象的 getPageCount 方法来查找所提供 PDF 的总页数。

使用此页面计数的for循环遍历每个页面,调用extractText函数以从每个PDF页面检索文本。 提取的文本既可以显示在用户屏幕上,也可以保存在字符串变量中。 因此,这项技术可以有组织地从单个 PDF 页面中提取文本。 这些技术展示了 IronPDF(一个专为 PDF 工作制作的 Node.js 库)如何轻松、彻底地从 PDF 文件中提取文本。 这种可访问性提高了 PDF 在各种情况下的实用性,并具有大量的实际应用。

如何在 Node.js 中解析 PDF 文档,图 2:逐页读取 PDF

逐页读取PDF

上述两个代码的输出结果相同,唯一的变化是根据用户需求实现代码。 要了解有关IronPDF的更多信息,请参阅此详细文档页面

结论

IronPdf 库提供强大的安全措施,以降低风险并确保数据安全。 它与所有流行的浏览器兼容,并不局限于其中任何一种浏览器。 为了满足开发人员的各种需求,该库提供了多种许可选项,包括免费的开发人员许可和可购买的额外开发许可。

除了永久许可证、一年的软件维护和三十天退款保证,$749 Lite 套餐还包括升级可能性。 在有水印的试用期内,用户有机会在实际应用环境中对产品进行评估。 请查看提供的许可页面以获取有关IronPDF的费用、许可和试用版本的更多详细信息。 要了解Iron Software提供的其他产品,请查看官方网站

如何在Node.js中解析PDF文档,图3:Iron Software定价

Iron Software 定价

Darrius Serrant
全栈软件工程师(WebOps)

达瑞乌斯·塞兰特拥有迈阿密大学计算机科学学士学位,目前在Iron Software担任全栈WebOps营销工程师。从小对编码的热爱使他认为计算机既神秘又易接近,成为创意和解决问题的完美媒介。

在Iron Software,达瑞乌斯乐于创造新事物并简化复杂概念,使其更易于理解。作为我们在职开发者之一,他还自愿教授学生,将他的专业知识传授给下一代。

对达瑞乌斯而言,他的工作之所以令人满足,是因为它具有价值并产生了真正的影响。

< 前一页
如何在 Node.js 中压缩 PDF 文件
下一步 >
如何在Node.js中从URL下载PDF文件

准备开始了吗? 版本: 2025.5 刚刚发布

查看许可证 >