跳過到頁腳內容
使用 IRONPDF FOR NODE.JS

如何在 Node.js 中解析 PDF 文件

本文將示範如何使用 Node.js 和 IronPDF(PDF 解析器 Node.js 函式庫)解析 PDF。

什麼是Node?

跨平台、開源的Node.js JavaScript執行階段環境允許JavaScript程式碼在網頁瀏覽器之外執行。 程式設計師可以透過啟用伺服器端 JavaScript 或 JS 模組執行來建立可擴充、快速且高效的網路應用程式。 由於 Node.js 是事件驅動、非阻塞 I/O 模型,因此非常適合開發能夠同時管理多個連接並包含互動式表單元素的即時應用程式。

Node.js 經常用於創建各種應用程序,包括 Web 伺服器、API、資料結構流應用程式、即時聊天應用程式、物聯網 (IoT) 設備等等。 綜合來看,Node.js 因其高效、快速以及前端和後端對 JavaScript 的兼容性而越來越受歡迎,為全端開發提供了單一語言。 請造訪此說明網站的文件頁面,以了解更多關於Node.js的資訊。

如何在Node.js中解析PDF文檔

  1. 若要將 PDF 解析為可讀流,請下載 Node.js 套件。
  2. 安裝 IronPDF for Node.js 函式庫。
  3. 建立一個新的 PDF 文件,或匯入一個包含已解析文件資料的現有 PDF 文件。
  4. 要提取每一行文本,請使用extractText方法。
  5. 檢視已解析的 PDF 內容,以便直接閱讀原始 PDF 檔案。

IronPDF for Node.js

截至我上次更新知識是在 2022 年 1 月,IronPDF 主要是一個 .NET 庫,旨在 .NET Framework 中運行,使開發人員能夠使用 C# 或 VB.NET 處理 PDF 文件。 然而,IronPDF 並沒有專門為 Node.js 開發的原生或直接版本。

由於 IronPDF 已擴展到支援 Node.js 並包含其綁定,這很可能意味著用於在 Node.js 應用程式中建立、編輯和處理 PDF 文件的工具現在已在 IronPDF for Node.js 中可用。

IronPDF 的特點

如果 IronPDF 已將其產品範圍擴展到包括 Node.js 版本,這將為開發 Node.js 應用程式的開發人員提供使用 IronPDF 的 PDF 處理功能的方法。 這對於希望在 .NET 環境中使用功能類似 IronPDF 的程式庫的開發人員來說可能很有幫助。

要獲取有關 IronPDF 的功能、兼容性和對 Node.js 的支援的最新信息,應始終查閱 IronPDF 團隊的官方文件、發行說明或更新。 點擊此處了解更多關於 IronPDF 以及每個版本新增功能的資訊。 要了解有關 IronPDF 的更多信息,請參閱此官方文件頁面

軟體包要求

  • 使用 Visual Studio Code 作為整合開發環境
  • Node.js
  • Yarn 或 npm 可用於套件管理,這是套件安裝所必需的。

安裝適用於 Node.js 的 IronPDF 包

啟動命令提示字元或終端機:開啟命令提示字元或終端機。 依作業系統不同,存取方式也各不相同:

  • Windows:PowerShell 或命令提示符 macOS 上的終端 Linux 終端

若要安裝軟體包,請使用軟體包名稱和 npm install 命令。 例如,若要安裝@ironsoftware/ironpdf軟體包,請在終端機中執行以下命令:

npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf
SHELL

如果與您要安裝的軟體包名稱不同,請將@ironsoftware/ironpdf替換為您要安裝的軟體包名稱。

如何在Node.js中解析PDF文檔,圖1:安裝IronPDF 安裝 IronPDF

解析PDF文件以提取數據

透過實驗可以看出,IronPDF 提供了許多功能,可以輕鬆地在 Node.js 中處理 PDF 檔案。 它專注於產生、檢視和修改所需格式的任何 PDF 文件。 PDF檔案解析起來相當簡單。

const { PdfDocument } = require("@ironsoftware/ironpdf");

const pdfProcess = async () => {
  // Load the existing PDF document
  const pdf = await PdfDocument.fromFile("Demo.pdf");
  // Extract text data from the loaded PDF
  const data = await pdf.extractText();
  // Output the extracted text to the console
  console.log(data);
};

pdfProcess();

上面的程式碼說明了fromFile函數的重要性。 fromFile方法讀取 PDF 文檔,並將 PDF 文件轉換為PdfDocument對象,從現有文件系統載入文件。 因此, PdfDocument保存 PDF 的元資料。 pdf 物件中的文件元資料可以根據使用者的需求使用。 此物件解析的文件資料是 PDF 頁面物件中包含的文字和圖形。 extractText函數用於從提供的 PDF 文件中提取所有文字。提取的文字將以字串形式存儲,並準備進行後續處理,例如建立 JSON 格式。

逐頁文字擷取

下面的程式碼是另一種方法,它明確地從 PDF 文件的每一頁中提取文字。

const pdf = await PdfDocument.fromFile("Demo.pdf");
// Get the total number of pages in the PDF
const pageCount = await pdf.getPageCount();

// Loop through each page to extract text
for (let i = 0; i < pageCount; i++) {
  const pageText = await pdf.extractText(i);
  // Output the text of each page
  console.log(pageText);
}

此範例程式碼從記憶體中已存在的 PDF 文件中提取原始 PDF 內容,並從指定目錄完整載入該 PDF 文件,然後建立一個名為pdf PdfDocument物件。 PDF文件是一種資料結構,由幾種基本資料物件類型組成。 PDF檔案中的每個頁面資料都是透過其在PDF物件中的頁碼或頁索引來檢索的,以確保按順序處理。 首先,我們使用 PDF 物件的getPageCount方法來尋找所提供的 PDF 中的總頁數。

for循環使用此頁數遍歷每一頁,呼叫extractText函數從每個 PDF 頁面中檢索文字。 提取的文字既可以顯示在使用者螢幕上,也可以保存在字串變數中。 這項技術能夠以有序的方式從單一 PDF 頁面中提取文字。 這些技術展示了 IronPDF(一個專門用於 PDF 任務的 Node.js 庫)如何輕鬆徹底地從 PDF 文件中提取文字。 這種可訪問性增強了 PDF 在各種情況下的實用性,並具有許多實際應用。

如何在Node.js中解析PDF文檔,圖2:逐頁讀取PDF 逐頁閱讀PDF

以上兩種程式碼都能達到相同的輸出效果,唯一的差別在於根據使用者需求實現程式碼的方式不同。 要了解有關 IronPDF 的更多信息,請參閱此詳細文件頁面

結論

IronPDF 庫提供強大的安全措施,以降低風險並確保資料安全。 它相容於所有主流瀏覽器,並不局限於任何單一瀏覽器。 為了滿足開發者的各種需求,該程式庫提供了多種授權選項,包括免費的開發者授權和可以購買的額外開發授權。

除了永久許可證、一年的軟體維護和 30 天退款保證外, $799 Lite 套餐還包括升級選項。 在有浮水印的試用期內,使用者有機會在實際應用環境中評估產品。 請查看提供的授權頁面,以了解有關 IronPDF 的費用、授權和試用版的更多詳細資訊。 若要了解Iron Software提供的其他產品,請查看官方網站

如何在 Node.js 中解析 PDF 文檔,圖 3:Iron Software 定價 Iron Software 定價

常見問題解答

如何使用 Node.js 解析 PDF?

要使用 Node.js 解析 PDF,您可以利用 IronPDF for Node.js 函式庫。首先,使用 npm install @ironsoftware/ironpdf 安裝 IronPDF 套件。然後,使用 fromFile 方法載入 PDF,並使用 extractText 方法抽取文字。

在 Node.js 中將 HTML 轉換為 PDF 的步驟為何?

您可以使用 IronPDF 在 Node.js 中將 HTML 轉換為 PDF。對於 HTML 字串,使用 RenderHtmlAsPdf 方法;對於 HTML 檔案,使用 RenderHtmlFileAsPdf 方法,即可有效率地產生 PDF。

如何使用 Node.js 從 PDF 的每一頁擷取文字?

使用 IronPDF,您可以通過迭代 PDF 的每一頁來提取文本。使用 getPageCount 方法確定頁數,並使用 extractText 函式從每一頁中提取文字。

IronPDF 库为 Node.js 提供哪些功能?

IronPDF for Node.js 提供了一系列功能,包括 HTML 到 PDF 的轉換、文字和圖像處理、PDF 合併和分割、加密、數位簽名和表單處理。

如何確保 Node.js 中 PDF 文件的安全性?

IronPDF 提供全面的安全功能,例如數位簽章、加密和密碼保護,以確保 PDF 文件在 Node.js 應用程式中的安全。

為 Node.js 選擇 PDF 函式庫時應該考慮哪些因素?

在為 Node.js 選擇 PDF 函式庫時,請考慮其功能,例如與不同瀏覽器的相容性、安全性選項、易用性、全面的文件,以及授權的彈性。IronPDF 提供這些功能,使其成為開發人員的有力選擇。

IronPDF in Node.js 有哪些授權選項?

IronPdf 提供多種授權選項,包括免費開發人員授權、永久授權以及一年的軟體維護。他們也提供試用期與水印版本,迎合不同開發人員的需求。

是否可以使用 Node.js 在 PDF 中處理圖片?

是的,使用 IronPDF,您可以在 Node.js 應用程式中處理 PDF 中的圖像。這包括新增、抽取或修改嵌入 PDF 文件中的影像。

Darrius Serrant
全棧軟件工程師 (WebOps)

Darrius Serrant 擁有邁阿密大學計算機科學學士學位,目前任職於 Iron Software 的全栈 WebOps 市場營銷工程師。從小就迷上編碼,他認為計算既神秘又可接近,是創意和解決問題的完美媒介。

在 Iron Software,Darrius 喜歡創造新事物,並簡化複雜概念以便於理解。作為我們的駐場開發者之一,他也自願教學生,分享他的專業知識給下一代。

對 Darrius 來說,工作令人滿意因為它被重視且有實際影響。