跳至页脚内容
使用 IRONPDF FOR NODE.JS

如何在 Node.js 中解析 PDF 文档

本文将演示如何使用Node.js和IronPDF,PDF解析器Node.js库解析PDF。

什么是Node?

跨平台、开源的Node.js JavaScript运行环境允许在Web浏览器之外执行JavaScript代码。 通过支持服务器端JavaScript或JS模块执行,程序员可以创建可扩展、快速和高效的网络应用程序。 由于Node.js是事件驱动的非阻塞I/O模型,特别适合开发实时应用程序,这些应用程序一次可以管理多个连接,并且具有交互式表单元素。

Node.js通常用于创建多种应用程序,包括Web服务器、API、数据结构流应用程序、实时聊天应用程序、物联网(IoT)设备等。 综上所述,Node.js因其效率、速度和前后端的JavaScript兼容性而日益受欢迎,使其成为全栈开发的单一语言。 查看这个解释网站以获取关于Node.js的文档页面以了解更多信息。

如何在Node.js中解析PDF文档

  1. 为了解析PDF用于可读流,下载Node.js包。
  2. 安装IronPDF for Node.js库。
  3. 使用解析的文档数据创建新的PDF或导入现有的PDF。
  4. 使用extractText方法提取每一行文本。
  5. 查看解析的PDF内容以进行原始PDF阅读。

适用于 Node.js 的 IronPDF.

在我2022年1月的最后知识更新时,IronPDF主要是一个为.NET框架而构建的.NET库,允许开发人员使用C#或VB.NET处理PDF文档。 然而,并没有为Node.js专门制作的原生或直接版本的IronPDF。

随着IronPDF扩展支持并包括对Node.js的绑定,这可能意味着现在可以在Node.js应用程序中使用IronPDF for Node.js来进行PDF文档的创建、编辑和处理的工具。

IronPDF 的功能

如果IronPDF已扩展其产品范围以包括Node.js版本,这可能为开发Node.js应用程序的开发者提供了一种使用IronPDF的PDF处理功能的方法。 这可能对更愿意使用提供类似于IronPDF在.NET环境中功能的库的开发者有帮助。

有关IronPDF的功能、兼容性和Node.js支持的最新和最全面的信息,始终应咨询IronPDF团队的官方文档、发布说明或更新。 前往这里了解IronPDF及每个版本中的新功能。 要了解有关IronPDF的更多信息,请参阅此官方文档页面

包需求

  • Visual Studio Code作为IDE
  • Node.js
  • Yarn或npm可用于包管理,这是安装包所需要的。

为Node.js安装IronPDF包

启动命令提示符或终端:打开终端或命令提示符。 根据您的操作系统,有多种访问它的方式:

  • Windows:PowerShell或命令提示符
  • 在macOS上是终端
  • 在Linux上是终端

要安装包,请使用包名称和npm install命令。 例如,要安装包@ironsoftware/ironpdf,在终端中运行以下命令:

npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf
SHELL

如果不同,请用您要安装的包的名称替换@ironsoftware/ironpdf

如何在Node.js中解析PDF文档,图1:安装IronPDF 安装IronPDF

解析PDF文件以提取数据

从实验中,您可以看到 IronPDF 提供了很多功能,以便在 Node.js 中处理 PDF。 它专注于生成、查看和修改任何所需格式的PDF文档。 PDF文件相当容易解析。

const { PdfDocument } = require("@ironsoftware/ironpdf");

const pdfProcess = async () => {
  // Load the existing PDF document
  const pdf = await PdfDocument.fromFile("Demo.pdf");
  // Extract text data from the loaded PDF
  const data = await pdf.extractText();
  // Output the extracted text to the console
  console.log(data);
};

pdfProcess();

代码如上所示,fromFile函数的重要性。 方法fromFile读取PDF文档并将PDF文件转换为PdfDocument对象,从现有的文件系统中载入文件。 因此PdfDocument包含了PDF的元数据。 pdf对象内的文件元数据可以根据用户需要使用。 这个对象解析的文档数据是PDF页面对象中包含的文本和图形。 函数extractText用于从提供的PDF文件中提取所有文本。之后,获得的文本被存储为字符串,并准备好附加的处理,例如创建JSON格式。

逐页文本提取

以下是另一种方法的代码,显式地从PDF文件的每一页提取文本。

const pdf = await PdfDocument.fromFile("Demo.pdf");
// Get the total number of pages in the PDF
const pageCount = await pdf.getPageCount();

// Loop through each page to extract text
for (let i = 0; i < pageCount; i++) {
  const pageText = await pdf.extractText(i);
  // Output the text of each page
  console.log(pageText);
}

此示例代码完全加载指定目录中的内存中的PDF的原始PDF阅读,然后创建一个名为pdfPdfDocument对象。 一个PDF文档是由几种基本数据对象类型组成的数据结构。每个页面数据在PDF文件中使用其页面编号或页面索引在PDF对象中被检索,以确保其一个接一个地处理。 首先,我们使用PDF对象的getPageCount方法找到提供的PDF的总页数。

for循环使用此页数遍历每一页,调用extractText函数以从每个PDF页面中检索文本。 无论是可以展示提取的文本到用户屏幕上,还是保存在字符串变量中。 此技术使得可以以有组织的方式从单个PDF页面中提取文本。 这些技术展示了如何使用特别为PDF任务创建的Node.js库IronPDF轻松而透彻地从PDF文件中提取文本。 这种可访问性提高了PDF在各种情况下的实用性,并具有许多实际应用。

如何在Node.js中解析PDF文档,图2:逐页阅读PDF 逐页阅读PDF

上面的代码都实现了相同的输出,但唯一的区别在于根据用户需求实现代码。 要了解更多关于IronPDF的信息,请参阅此详细的文档页面

结论

IronPDF库提供了强大的安全措施,以降低风险并确保数据安全。 它兼容所有流行的浏览器,而不限于某一种。 为了满足开发者的各种需求,库提供了多种许可证选项,包括免费的开发者许可证和其他可以购买的开发许可证。

除了永久许可证外,一年软件维护和三十天退款保证,$799 Lite捆绑包还包括升级可能性。 用户有机会在水印试用期间评估产品在实际应用环境中的表现。 有关IronPDF的成本、许可以及试用版的更多详细信息,请检查提供的许可页面。 要了解Iron Software提供的其他产品,请查看官方网站

如何在Node.js中解析PDF文档,图3:Iron Software定价 Iron Software定价

常见问题解答

如何使用Node.js解析PDF?

要使用Node.js解析PDF,您可以使用IronPDF库。首先使用npm install @ironsoftware/ironpdf安装IronPDF包。然后,使用fromFile方法加载PDF,并使用extractText方法提取文本。

将HTML转换为PDF的步骤是什么?

您可以在Node.js中使用IronPDF将HTML转换为PDF。使用RenderHtmlAsPdf方法处理HTML字符串或RenderHtmlFileAsPdf处理HTML文件以高效生成PDF。

如何使用Node.js从PDF的每个页面提取文本?

使用IronPDF,您可以通过遍历页面从PDF的每个页面提取文本。使用getPageCount方法确定页数,并使用extractText函数从每个页面提取文本。

IronPDF库为Node.js提供了哪些功能?

IronPDF for Node.js提供了一系列功能,包括HTML到PDF转换、文本和图像操作、PDF合并和拆分、加密、数字签名和表单处理。

如何确保Node.js中PDF文档的安全性?

IronPDF提供全面的安全功能,例如数字签名、加密和密码保护,以确保Node.js应用程序中的PDF文档安全。

选择Node.js PDF库时应考虑哪些因素?

选择Node.js PDF库时,应考虑不同浏览器的兼容性、安全选项、易用性、全面的文档和许可灵活性。IronPDF提供这些功能,是开发者的理想选择。

IronPDF在Node.js中的许可选项有哪些?

IronPDF提供多种许可选项,包括免费的开发者许可、永久许可证和一年的软件维护。他们还提供试用期和带水印版本,以满足不同开发者的需求。

在Node.js中可以操作PDF中的图像吗?

是的,使用IronPDF,您可以在Node.js应用程序中操作PDF中的图像。这包括添加、提取或修改嵌入在PDF文档中的图像。

Darrius Serrant
全栈软件工程师(WebOps)

Darrius Serrant 拥有迈阿密大学的计算机科学学士学位,目前在 Iron Software 担任全栈 WebOps 市场工程师。从小就被编码吸引,他认为计算机既神秘又易于接触,使其成为创意和问题解决的理想媒介。

在 Iron Software,Darrius 喜欢创造新事物,并简化复杂概念以使其更易理解。作为我们常驻的开发者之一,他还自愿教授学生,与下一代分享他的专业知识。

对于 Darrius 来说,他的工作令人满意,因为它被重视并产生真正的影响。