import {PdfDocument} from "@ironsoftware/ironpdf"; (async () => { // Create a PDF from an HTML string const pdf = await PdfDocument.fromHtml("<h1>Hello World</h1>"); // Export the PDF to a file await pdf.saveAs("output.pdf"); // Advanced Example with HTML Assets // Load external HTML assets: Images, CSS, and JavaScript. const htmlContentWithAssets = "<img src='icons/iron.png'>"; const advancedPdf = await PdfDocument.fromHtml(htmlContentWithAssets); // Save the PDF with loaded assets await advancedPdf.saveAs("html-with-assets.pdf"); })();

使用 IRONPDF FOR NODE.JS

如何在 Node.js 中解析 PDF 文件

Q: 我如何在Node.js中解析PDF？

要在Node.js中解析PDF，您可以利用IronPDF庫。首先通過 npm install @Iron Software/ironpdf 安裝IronPDF包。然後，使用 fromFile 方法加載PDF並使用 extractText 方法提取文本。

Q: 在Node.js中將HTML轉換為PDF的步驟是什麼？

您可以在Node.js中使用IronPDF將HTML轉換為PDF。對於HTML字符串使用 RenderHtmlAsPdf 方法，對於HTML文件使用 RenderHtmlFileAsPdf 方法以高效生成PDF。

Q: 如何在Node.js中從每頁PDF中提取文本？

使用IronPDF，您可以通過遍歷頁面從每頁PDF中提取文本。使用 getPageCount 方法確定頁數，然後使用 extractText 函數從每頁中提取文本。

Curtis Chau

更新:2025年6月22日

本文將示範如何使用Node.js和IronPDF（PDF 解析器Node.js庫）解析 PDF。

什麼是Node？

跨平台、開源的Node.js JavaScript執行階段環境允許JavaScript程式碼在網頁瀏覽器之外執行。程式設計師可以透過啟用伺服器端JavaScript或 JS 模組執行來建立可擴充、快速且高效的網路應用程式。由於Node.js是事件驅動、非阻塞 I/O 模型，因此非常適合開發能夠同時管理多個連接並包含互動式表單元素的即時應用程式。

Node.js經常用於創建各種應用程序，包括 Web 伺服器、API、資料結構流應用程式、即時聊天應用程式、物聯網 (IoT) 設備等等。綜合來看， Node.js因其高效、快速以及前端和後端對JavaScript 的兼容性而越來越受歡迎，為全端開發提供了單一語言。請造訪此說明網站的文件頁面，以了解更多關於Node.js的資訊。

如何在Node.js中解析PDF文檔

若要將 PDF 解析為可讀流，請下載Node.js套件。
安裝IronPDF for Node.js庫。
建立一個新的 PDF 文件，或匯入一個包含已解析文件資料的現有 PDF 文件。
要提取每一行文本，請使用extractText方法。
檢視已解析的 PDF 內容，以便直接閱讀原始 PDF 檔案。

IronPDF for Node.js

截至我上次更新知識是在 2022 年 1 月， IronPDF主要是一個.NET庫，旨在.NET Framework中運行，使開發人員能夠使用 C# 或 VB .NET處理 PDF 文件。然而， IronPDF並沒有專門為Node.js開發的原生或直接版本。

由於IronPDF已擴展到支援Node.js並包含其綁定，這很可能意味著用於在Node.js應用程式中建立、編輯和處理 PDF 文件的工具現在已在IronPDF for Node.js中可用。

IronPDF的特點

HTML 轉 PDF 產生：將 HTML 內容轉換為 PDF 文件的功能。
對 PDF 檔案進行新增、變更或刪除文字、形狀、影像和其他元素的操作稱為文字和影像處理。 -合併、從 PDF 文件中提取頁面、拆分 PDF 文件、加密和解密PDF 文件都是 PDF 文件修改的範例。 -表單處理包括填寫表單、取得表單資料、透過程式設計利用 PDF 表單。
PDF 安全性是指對 PDF 文件使用數位簽章、加密和密碼保護。
檢索和修改 PDF 檔案稱為頁面元資料處理。

如果IronPDF已將其產品範圍擴展到包括Node.js版本，這將為開發Node.js應用程式的開發人員提供使用 IronPDF 的 PDF 處理功能的方法。這對於希望在.NET環境中使用功能類似IronPDF的程式庫的開發人員來說可能很有幫助。

要獲取有關 IronPDF 的功能、相容性和對Node.js的支援的最新信息，應始終查閱IronPDF團隊的官方文件、發行說明或更新。點擊此處了解更多關於IronPDF以及每個版本新增功能的資訊。要了解有關IronPDF 的更多信息，請參閱此官方文件頁面。

軟體包要求

使用 Visual Studio Code 作為整合開發環境
Node.js
Yarn 或 npm 可用於套件管理，這是套件安裝所必需的。

安裝適用於Node.js的IronPDF包

啟動命令提示字元或終端機：開啟命令提示字元或終端機。依作業系統不同，存取方式也各不相同：

Windows：PowerShell 或命令提示符 macOS 上的終端 Linux 終端

若要安裝軟體包，請使用軟體包名稱和 npm install 命令。例如，要安裝軟體包 @ironsoftware/ironpdf，請在終端機中執行以下命令：

npm install @ironsoftware/ironpdf

npm install @ironsoftware/ironpdf

SHELL

如果與您要安裝的軟體包名稱不同，請將 @ironsoftware/ironpdf 替換為您要安裝的軟體包名稱。

如何在Node.js中解析PDF文檔，圖1：安裝IronPDF 安裝IronPDF

解析PDF文件以提取數據

透過實驗可以看出， IronPDF提供了許多功能，可以方便地在Node.js中處理 PDF 檔案。它專注於產生、檢視和修改所需格式的任何 PDF 文件。 PDF檔案解析起來相當簡單。

const { PdfDocument } = require("@ironsoftware/ironpdf");

const pdfProcess = async () => {
  // Load the existing PDF document
  const pdf = await PdfDocument.fromFile("Demo.pdf");
  // Extract text data from the loaded PDF
  const data = await pdf.extractText();
  // Output the extracted text to the console
  console.log(data);
};

pdfProcess();

上面的程式碼證明了fromFile函數的重要性。 fromFile 方法讀取 PDF 文件並將 PDF 文件轉換為PdfDocument對象，從現有文件系統載入文件。因此，PdfDocument 保存了 PDF 的元資料。 pdf 物件中的文件元資料可以根據使用者的需求使用。此物件解析的文件資料是 PDF 頁面物件中包含的文字和圖形。 extractText 函數用於從提供的 PDF 檔案中提取所有文字。之後，提取的文字將以字串形式存儲，並準備進行後續處理，例如建立 JSON 格式。

逐頁文字擷取

下面的程式碼是另一種方法，它明確地從 PDF 文件的每一頁中提取文字。

const pdf = await PdfDocument.fromFile("Demo.pdf");
// Get the total number of pages in the PDF
const pageCount = await pdf.getPageCount();

// Loop through each page to extract text
for (let i = 0; i < pageCount; i++) {
  const pageText = await pdf.extractText(i);
  // Output the text of each page
  console.log(pageText);
}

此範例程式碼從記憶體中已存在的 PDF 檔案完整地載入到指定目錄中，然後建立一個名為 @@--CODE-637--@@ 的 @@--CODE-638--@@ 物件。 PDF文件是一種資料結構，由幾種基本資料物件類型組成。 PDF檔案中的每個頁面資料都是透過其在PDF物件中的頁碼或頁索引來檢索的，以確保按順序處理。首先，我們使用其 PDF 物件的getPageCount方法來尋找所提供的 PDF 中的總頁數。

for 循環使用此頁數遍歷每一頁，呼叫 extractText 函數從每個 PDF 頁面檢索文字。提取的文字既可以顯示在使用者螢幕上，也可以保存在字串變數中。這項技術能夠以有序的方式從單一 PDF 頁面中提取文字。這些技術展示了IronPDF（一個專門用於 PDF 任務的Node.js庫）如何輕鬆徹底地從 PDF 文件中提取文字。這種可訪問性增強了 PDF 在各種情況下的實用性，並具有許多實際應用。

如何在Node.js中解析PDF文檔，圖2：逐頁讀取PDF 逐頁閱讀PDF

以上兩種程式碼都能達到相同的輸出效果，唯一的差別在於根據使用者需求實現程式碼的方式不同。要了解有關IronPDF 的更多信息，請參閱此詳細文件頁面。

結論

IronPDF庫提供強大的安全措施，以降低風險並確保資料安全。它相容於所有主流瀏覽器，並不局限於任何單一瀏覽器。為了滿足開發者的各種需求，該程式庫提供了多種授權選項，包括免費的開發者授權和可以購買的額外開發授權。

除了永久許可證、一年的軟體維護和 30 天退款保證外，$999 Lite套裝還包含升級選項。在有浮水印的試用期內，使用者有機會在實際應用環境中評估產品。請查看提供的授權頁面，以了解有關 IronPDF 的費用、授權和試用版的更多詳細資訊。若要了解Iron Software提供的其他產品，請查看官方網站。

如何在Node.js中解析PDF文檔，圖3： Iron Software定價 Iron Software定價