import {PdfDocument} from "@ironsoftware/ironpdf"; (async () => { // Create a PDF from an HTML string const pdf = await PdfDocument.fromHtml("<h1>Hello World</h1>"); // Export the PDF to a file await pdf.saveAs("output.pdf"); // Advanced Example with HTML Assets // Load external HTML assets: Images, CSS, and JavaScript. const htmlContentWithAssets = "<img src='icons/iron.png'>"; const advancedPdf = await PdfDocument.fromHtml(htmlContentWithAssets); // Save the PDF with loaded assets await advancedPdf.saveAs("html-with-assets.pdf"); })();

使用 IRONPDF FOR NODE.JS

如何在 Node.js 中解析 PDF 文档

Q: 如何使用Node.js解析PDF？

要使用Node.js解析PDF，您可以使用IronPDF库。首先使用 npm install @Iron Software/ironpdf 安装IronPDF包。然后，使用 fromFile 方法加载PDF，并使用 extractText 方法提取文本。

Q: 将HTML转换为PDF的步骤是什么？

您可以在Node.js中使用IronPDF将HTML转换为PDF。使用 RenderHtmlAsPdf 方法处理HTML字符串或 RenderHtmlFileAsPdf 处理HTML文件以高效生成PDF。

Q: 如何使用Node.js从PDF的每个页面提取文本？

使用IronPDF，您可以通过遍历页面从PDF的每个页面提取文本。使用 getPageCount 方法确定页数，并使用 extractText 函数从每个页面提取文本。

Darrius Serrant

已更新:2025年6月22日

本文将演示如何使用Node.js和IronPDF，PDF解析器Node.js库解析PDF。

什么是Node？

跨平台、开源的Node.js JavaScript运行环境允许在Web浏览器之外执行JavaScript代码。通过支持服务器端JavaScript或JS模块执行，程序员可以创建可扩展、快速和高效的网络应用程序。由于Node.js是事件驱动的非阻塞I/O模型，特别适合开发实时应用程序，这些应用程序一次可以管理多个连接，并且具有交互式表单元素。

Node.js通常用于创建多种应用程序，包括Web服务器、API、数据结构流应用程序、实时聊天应用程序、物联网（IoT）设备等。综上所述，Node.js因其效率、速度和前后端的JavaScript兼容性而日益受欢迎，使其成为全栈开发的单一语言。查看这个解释网站以获取关于Node.js的文档页面以了解更多信息。

如何在Node.js中解析PDF文档

为了解析PDF用于可读流，下载Node.js包。
安装IronPDF for Node.js库。
使用解析的文档数据创建新的PDF或导入现有的PDF。
要提取每一行文本，请使用extractText方法。
查看解析的PDF内容以进行原始PDF阅读。

适用于 Node.js 的 IronPDF.

在我2022年1月的最后知识更新时，IronPDF主要是一个为.NET框架而构建的.NET库，允许开发人员使用C#或VB.NET处理PDF文档。然而，并没有为Node.js专门制作的原生或直接版本的IronPDF。

随着IronPDF扩展支持并包括对Node.js的绑定，这可能意味着现在可以在Node.js应用程序中使用IronPDF for Node.js来进行PDF文档的创建、编辑和处理的工具。

IronPDF 的功能

HTML转PDF生成：将HTML内容转换为PDF文档的能力。
从PDF文件中添加、改变或移除文本、形状、图像和其他元素被称为文本和图像操作。
合并、从PDF文件中提取页面、拆分PDF文件、加密和解密它们都是PDF文档更改的例子。
表单处理涵盖填写表单、获取表单数据和通过编程利用PDF表单。
PDF安全包括使用数字签名、加密和密码保护来保护PDF文档。
检索和修改PDF文件被称为页面元数据处理。

如果IronPDF已扩展其产品范围以包括Node.js版本，这可能为开发Node.js应用程序的开发者提供了一种使用IronPDF的PDF处理功能的方法。这可能对更愿意使用提供类似于IronPDF在.NET环境中功能的库的开发者有帮助。

有关IronPDF的功能、兼容性和Node.js支持的最新和最全面的信息，始终应咨询IronPDF团队的官方文档、发布说明或更新。前往这里了解IronPDF及每个版本中的新功能。要了解有关IronPDF的更多信息，请参阅此官方文档页面。

包需求

Visual Studio Code作为IDE
Node.js
Yarn或npm可用于包管理，这是安装包所需要的。

为Node.js安装IronPDF包

启动命令提示符或终端：打开终端或命令提示符。根据您的操作系统，有多种访问它的方式：

Windows：PowerShell或命令提示符
在macOS上是终端
在Linux上是终端

要安装包，请使用包名称和npm install命令。例如，要安装包@ironsoftware/ironpdf，请在终端运行以下命令：

npm install @ironsoftware/ironpdf

npm install @ironsoftware/ironpdf

SHELL

如果想安装不同的包，请将@ironsoftware/ironpdf替换为您想要安装的包名。

如何在Node.js中解析PDF文档，图1：安装IronPDF 安装IronPDF

解析PDF文件以提取数据

从实验中，您可以看到 IronPDF 提供了很多功能，以便在 Node.js 中处理 PDF。它专注于生成、查看和修改任何所需格式的PDF文档。 PDF文件相当容易解析。

const { PdfDocument } = require("@ironsoftware/ironpdf");

const pdfProcess = async () => {
  // Load the existing PDF document
  const pdf = await PdfDocument.fromFile("Demo.pdf");
  // Extract text data from the loaded PDF
  const data = await pdf.extractText();
  // Output the extracted text to the console
  console.log(data);
};

pdfProcess();

通过上面的代码展示了fromFile函数的重要性。 fromFile方法读取PDF文档，并将PDF文件转换为PdfDocument对象，从现有文件系统中加载文件。因此PdfDocument持有PDF的元数据。 pdf对象内的文件元数据可以根据用户需要使用。这个对象解析的文档数据是PDF页面对象中包含的文本和图形。 extractText函数用于提取所提供PDF文件中的所有文本。然后，提取的文本被存储为字符串并准备进行额外处理，如创建JSON格式。

逐页文本提取

以下是另一种方法的代码，显式地从PDF文件的每一页提取文本。

const pdf = await PdfDocument.fromFile("Demo.pdf");
// Get the total number of pages in the PDF
const pageCount = await pdf.getPageCount();

// Loop through each page to extract text
for (let i = 0; i < pageCount; i++) {
  const pageText = await pdf.extractText(i);
  // Output the text of each page
  console.log(pageText);
}

此示例代码从指定目录中以其全部加载已在内存中的PDF原始读取，然后创建一个名为PdfDocument对象。一个PDF文档是由几种基本数据对象类型组成的数据结构。每个页面数据在PDF文件中使用其页面编号或页面索引在PDF对象中被检索，以确保其一个接一个地处理。首先，我们使用其PDF对象的getPageCount方法来查找提供的PDF的总页数。

extractText函数从每个PDF页面中检索文本。提取的文本可以显示在用户的屏幕上或保存在字符串变量中。此技术使得可以以有组织的方式从单个PDF页面中提取文本。这些技术展示了如何使用特别为PDF任务创建的Node.js库IronPDF轻松而透彻地从PDF文件中提取文本。这种可访问性提高了PDF在各种情况下的实用性，并具有许多实际应用。

如何在Node.js中解析PDF文档，图2：逐页读取PDF 逐页阅读PDF