使用IRONPDF FOR NODE.JS

如何在Node.js中解析PDF文档

更新 2024年十月8日
分享:

本文将演示如何使用 IronPDF、PDF 解析器 Node.js 库使用 Node.js 解析 PDF。

什么是 Node?

跨平台、开源的 Node.js JavaScript 运行环境允许在网络浏览器之外执行 JavaScript 代码。 程序员可以通过启用服务器端 JavaScript 或 JS 模块执行功能,创建可扩展、快速、高效的网络应用程序。 由于 Node.js 是一种事件驱动、无阻塞的 I/O 模型,因此非常适合开发同时管理多个连接和交互式表单元素的实时应用程序。

Node.js 经常被用来创建各种应用程序,包括网络服务器、API、数据结构流应用程序、实时聊天应用程序、物联网应用程序、.NET 应用程序、Java 应用程序、Python 应用程序和 Node.js 应用程序。(物联网)设备等。 综上所述,Node.js 因其高效、快速以及前端和后端的 JavaScript 兼容性而越来越受欢迎,为全栈开发提供了一种单一语言。 查看此页解释网站文档页面,了解有关 Node.js 的更多信息。

如何在 Node.js 中解析 PDF 文档

  1. 要对 PDF 进行可读流解析,请下载 Node.js 软件包。

  2. 安装 IronPDF for Node.js 库。

  3. 使用解析后的文档数据创建新的 PDF 或导入现有 PDF。

  4. 要提取每一行文本,请使用Extract Text方法。

  5. 查看解析后的 PDF 内容,进行原始 PDF 阅读。

IronPDF for Node.js

在我上次于 2022 年 1 月进行知识更新时,IronPDF 主要是一个在 .NET Framework 中构建的.NET 库,使开发人员能够使用 C# 或 VB.NET 处理 PDF 文档。 然而,IronPDF 并没有专为 Node.js 制作的原生或直接版本。

随着 IronPDF 扩展到支持 Node.js 并包含 Node.js 的绑定,这可能意味着在 Node.js 应用程序中创建、编辑和处理 PDF 文档的工具现在可以在 IronPDF for Node.js 中使用。

IronPDF 的功能

  • HTML 到 PDF 的生成:能够将 HTML 内容转换为 PDF 文档。
  • 从 PDF 文件中添加、修改或删除文本、形状、图像和其他元素被称为文本和图像处理.
  • Combine从 PDF 文件中提取页面、分割 PDF 文件加密和解密这些都是更改 PDF 文档的示例。
  • 表单处理包括通过编程完成表单、获取表单数据和利用 PDF 表单。
  • PDF 安全性是指使用数字签名如:.NET、Java、Python 或 Node js。密码保护用于 PDF 文档。
  • 检索和修改 PDF 文件被称为页面元数据处理。

    如果 IronPDF 扩展了产品范围,加入了 Node.js 版本,这将为制作 Node.js 应用程序的开发人员提供使用 IronPDF 的 PDF 操作功能的途径。 这对于那些希望在 .NET 环境中使用与 IronPDF 功能类似的库的开发人员可能会有所帮助。

    有关 IronPDF 的功能、兼容性和对 Node.js 的支持的最新信息,应始终参考 IronPDF 团队的官方文档、发行说明或更新。 点击此处了解更多有关 IronPDF 和每个版本中新功能的信息。 要了解有关 IronPDF 的更多信息,请参阅此页官方文档页面.

软件包要求

  • Visual Studio Code 是集成开发环境
  • Node.js
  • 可以使用 Yarn 或 npm 进行软件包管理,这是安装软件包所必需的。

安装 IronPDF Node.js 软件包

启动命令提示符或终端:打开命令提示符或终端。 根据您的操作系统,有多种访问方式:

  • 视窗:PowerShell 或命令提示符
  • Mac OS X 上的终端
  • Linux 终端

    将软件包放在一起:要安装软件包,请使用软件包名称和 npm install 命令。 例如,要安装软件包 @ironsoftware/ironpdf,请在终端执行以下命令:

npm i @ironsoftware/ironpdf

@ironsoftware/ironpdf 替换为您要安装的软件包名称。 安装实际软件包。

如何在 Node.js 中解析 PDF 文档,图 1:安装 IronPDF for Node.js

安装 IronPDF

解析 PDF 文件以提取数据

通过实验,您可以看到 IronPDF 提供了很多功能,方便在 Node.js 中处理 PDF。 翻译的重点是以所需格式生成、查看和修改任何 PDF 文档。 PDF 文件的解析非常简单。

const { PdfDocument } = require("@ironsoftware/ironpdf");

const pdfprocess = async () => {
  // Load the existing PDF document
  const pdf = await PdfDocument.fromFile("Demo.pdf");
  var data = await pdf.extractText();
  console.log(data);
};
pdfprocess();
JAVASCRIPT

翻译的重要性fromFile上面的代码演示了该功能。 fromFile "方法允许读取 PDF 文档并将 PDF 文件转换为PDFDocument在翻译过程中,译员必须确保翻译的专业性,在解释这些开发人员工具的功能和优点的同时,保持技术上的准确性。 因此,"PDFDocument "包含 PDF 的元数据。 pdf 对象中的文件元数据可根据用户需要使用。 该对象解析的文档数据是 PDF 页面对象中包含的文本和图形。 提取文本 "函数用于从提供的 PDF 文件中提取所有文本。然后,将提取的文本保存为字符串,并准备进行其他处理,如创建 JSON 格式。

逐页提取文本

以下是第二种方法的代码,它显式地从PDF文件的每一页中提取文本。

const pdf = await PdfDocument.fromFile("Demo.pdf");
var pagecount = await pdf.getPageCount();
for (var i = 0; i < pagecount; i++) {
  var spdf = await pdf.extractText(i);
  console.log(spdf);
}
JAVASCRIPT

本示例代码从指定目录中完整加载从内存中已存在的 PDF 中读取的原始 PDF,然后创建名为 pdf 的 PdfDocument 对象。 PDF 文档是由几种基本数据对象组成的数据结构。 PDF 文件中的每个页面数据都使用 PDF 对象中的页码或页面索引进行检索,以确保一个接一个地进行处理。 首先,我们使用获取页面计数您可以使用 PDF 对象的方法查找所提供 PDF 的总页数。

For 循环使用此页数遍历每个页面,调用 extractText 函数从每个 PDF 页面获取文本。 提取的文本既可以显示在用户屏幕上,也可以保存在字符串变量中。 因此,这项技术可以有组织地从单个 PDF 页面中提取文本。 这些技术展示了 IronPDF(一个专为 PDF 工作制作的 Node.js 库)如何轻松、彻底地从 PDF 文件中提取文本。 这种可访问性提高了 PDF 在各种情况下的实用性,并具有大量的实际应用。

如何在 Node.js 中解析 PDF 文档,图 2:逐页阅读 PDF

逐页阅读 PDF

上述两个代码的输出结果相同,唯一的变化是根据用户需求实现代码。 要了解有关 IronPDF 的更多信息,请参阅此页详细的文档页面.

结论

IronPdf 库提供强大的安全措施,以降低风险并确保数据安全。 它与所有流行的浏览器兼容,并不局限于其中任何一种浏览器。 为了满足开发人员的各种需求,该库提供了多种许可选项,包括免费的开发人员许可和可购买的额外开发许可。

除了永久许可证、一年软件维护和三十天退款保证外,$749 Lite 捆绑软件还包括升级可能性。 在有水印的试用期内,用户有机会在实际应用环境中对产品进行评估。 请检查所提供的许可页面有关 IronPDF 的成本、许可和试用版的更多详情。 要了解Iron Software提供的其他产品,请查看官方网站.

如何在 Node.js 中解析 PDF 文档,图 3:Iron Software 定价

Iron Software 定价

< 前一页
如何在 Node.js 中压缩 PDF 文件
下一步 >
如何在Node.js中从URL下载PDF文件

准备开始了吗? 版本: 2024.11 刚刚发布

免费 npm 安装 查看许可证 >