使用IRONPDF FOR NODE.JS

如何在Node.js中解析PDF文档

发布 2023年十二月12日
分享:

简介

便携式文档格式简称 PDF。Adobe 开发了一种不依赖于操作系统、硬件或应用软件的文件格式,用于显示带有文本格式和图像的文档或解析对象。文本、照片、表格、交互式按钮、超链接、嵌入式字体和其他材料都可以在 PDF 文件和文档标题中找到。PDF 文件经常用于文档共享,因为它们能在各种设备和软件中保持页面对象格式和 PDF 缓冲元数据。表单、电子书、手册和其他格式和布局必须保持一致输出的产品经常被转换为 PDF 格式。在本文中,我们将了解如何使用 IronPDF(PDF 解析器 Node 库)在 Node.js 中解析 PDF。

Node 是什么?

跨平台、开源的 Node.js JavaScript 运行环境允许在网络浏览器之外执行 JavaScript 代码。程序员可以通过启用服务器端 JavaScript 或 JS 模块执行功能,创建可扩展、快速、高效的网络应用程序。由于 Node.js 是一种事件驱动、非阻塞 I/O 模式,因此非常适合开发实时应用程序,可同时管理多个连接和交互式表单元素。

Node.js 经常被用于创建各种应用程序,包括网络服务器、应用程序接口、数据结构流应用程序、实时聊天应用程序、物联网应用程序、网络游戏应用程序等。 (物联网) 设备等。综上所述,Node.js 因其高效、快速以及前端和后端的 JavaScript 兼容性而越来越受欢迎,它为全栈开发提供了一种单一语言。查看 链接 文档页面,了解有关 Node.js 的更多信息。

如何在 Node.js 中解析 PDF 文档

1.要解析 PDF 文件以获得可读流,请下载 Node.js 软件包。

2.安装 IronPDF Node.js 库。

3.使用解析后的文档数据创建新的 PDF 或导入现有 PDF。

4.要提取每一行文本,请使用 "extractText()"方法。

5.查看解析后的 PDF 内容,以阅读原始 PDF。

IronPDF for Node.js

在我上一次于 2022 年 1 月更新知识时,IronPDF 主要是一个在 .NET 框架内构建的 .NET 库,使开发人员能够使用 C# 或 VB.NET 处理 PDF 文档。然而,IronPDF 并没有专为 Node.js 制作的本地或直接版本。

随着 IronPDF 扩展到支持 Node.js 并包含 Node.js 绑定,这可能意味着在 Node.js 应用程序中创建、编辑和处理 PDF 文档的工具现在可以在 IronPDF for Node.js 中使用。

IronPDF 的功能

  • HTML 到 PDF 的生成:将 HTML 内容转换为 PDF 文档的功能。
  • 从 PDF 文件中添加、修改或删除文本、形状、图像和其他元素被称为文本和图像处理。
  • 合并 PDF 文件、从 PDF 文件中提取页面、分割 PDF 文件以及对 PDF 文件进行加密和解密都是更改 PDF 文档的例子。
  • 表单处理包括完成表单、获取表单数据以及通过编程利用 PDF 表单。
  • PDF 安全是指对 PDF 文档使用数字签名、加密和密码保护。
  • 检索和修改 PDF 文件称为页面元数据处理。

如果 IronPDF 将其产品范围扩展到包括 Node.js 版本,这将为开发 Node.js 应用程序的开发人员提供一种使用 IronPDF PDF 操作功能的方法。这对于那些希望在.NET环境中使用与IronPDF功能类似的库的开发人员来说可能会很有帮助。

有关 IronPDF 的功能、兼容性以及对 Node.js 的支持的最新信息,请随时查阅 IronPDF 团队的官方文档、发布说明或更新。在我上次更新知识之后,软件库可能有所增长或改变。点击此处了解有关 IronPDF 的更多信息。要了解有关 IronPDF 的更多信息,请参阅 这里.

包裹要求

  • Visual Studio Code 是集成开发环境
  • Node.js

  • Yarn 或 npm 可用于软件包管理,这是安装软件包所必需的。

为 Node.js 安装 IronPDF 软件包

启动命令提示符或终端:打开命令提示符或终端。根据操作系统的不同,有多种访问方式:

  • WindowsPowerShell 或命令提示符
  • Mac OS X 上的终端

  • Linux 终端

将软件包放在一起要安装软件包,请使用软件包名称和 npm install 命令。例如,要安装 @ironsoftware/ironpdf 软件包,请在终端执行以下命令:

 npm i @ironsoftware/ironpdf

将 @ironsoftware/ironpdf 替换为要安装的软件包名称。安装实际软件包

如何在 Node.js 中解析 PDF 文档:图 1 - 安装 IronPDF

解析 PDF 文件以提取数据

通过实验,您可以看到 IronPDF 提供了大量功能,便于在 Node.js 中处理 PDF。它专注于以所需格式生成、查看和修改任何 PDF 文档。PDF 文件的解析非常简单。

const { PdfDocument } = require("@ironsoftware/ironpdf");
const pdfprocess = async () => {
  // Load the existing PDF document
  const pdf = await PdfDocument.fromFile("Demo.pdf");
  var data=await pdf.extractText();
  console.log(data);
};
pdfprocess();
JAVASCRIPT

fromFile 方法允许我们读取 PDF 文档并将 PDF 文件转换为 PDFDocument 对象,该方法从现有文件系统中加载文件。因此,PdfDocument 保存了 PDF 的元数据。PDF 对象中的文件元数据可根据用户需要使用。该对象解析的文档数据是 PDF 页面对象中包含的文本和图形。extractText 函数用于从提供的 PDF 文件中提取所有文本。然后,将提取的文本保存为字符串,并准备进行其他处理,如创建 JSON 格式。

逐页提取文本

下面是第二种方法的代码,它明确地从 PDF 文件的每一页提取文本。

const pdf = await PdfDocument.fromFile("Demo.pdf");
  var pagecount = await pdf.getPageCount();
  for (var i = 0; i < pagecount; i++) {
    var spdf = await pdf.extractText(i);
    console.log(spdf);
  }
JAVASCRIPT

本示例代码从指定目录中完整加载从内存中已存在的 PDF 中读取的原始 PDF,然后创建名为 pdf 的 PdfDocument 对象。PDF 文档是由几种基本数据对象组成的数据结构。PDF 文件中的每一页数据都使用 PDF 对象中的页码或页码索引进行检索,以保证一个接一个地进行处理。首先,我们使用 PDF 对象的 PageCount 方法来查找所提供 PDF 文件的总页数。

For 循环使用此页数遍历每一页,并调用 extractText 函数从每个 PDF 页面提取文本。提取的文本既可以显示在用户屏幕上,也可以保存在字符串变量中。因此,这种技术使有组织地从单个 PDF 页面提取文本成为可能。这些技术展示了 IronPDF(一个专为 PDF 工作而设计的 Node.js 库)如何轻松、全面地从 PDF 文件中提取文本。这种可访问性增强了 PDF 在各种情况下的实用性,并具有大量的实际应用。

如何在 Node.js 中解析 PDF 文档:图 2 - 逐页阅读 PDF

上述两个代码返回相同的输出结果,唯一的变化是根据用户要求执行代码。要了解有关 IronPDF 的更多信息,请参阅 这里.

结论

IronPDF 库提供了强大的安全措施,以降低风险并确保数据安全。它兼容所有流行的浏览器,并不局限于其中任何一种。为了满足开发人员的各种需求,该库提供了多种许可选项,包括免费的开发人员许可和可购买的附加开发许可。

除了永久许可证、一年软件维护和 30 天退款保证外,"$liteLicense "精简版捆绑包还包括升级可能性。在带水印的试用期内,用户有机会在实际应用环境中对产品进行评估。请查看所提供的 链接 了解有关 IronPDF 成本、许可和试用版的更多详情。要了解 Iron Software 提供的其他产品,请查看链接 这里.

如何在 Node.js 中解析 PDF 文档:图 3

< 前一页
如何在 Node.js 中压缩 PDF 文件
下一步 >
如何在Node.js中从URL下载PDF文件

准备开始了吗? 版本: 2024.9 刚刚发布

免费 npm 安装 查看许可证 >