跳過到頁腳內容
使用 IRONPDF FOR NODE.JS

如何在 Node.js 中解析 PDF 文件

本文將示範如何使用Node.js和IronPDF(PDF 解析器Node.js庫)解析 PDF。

什麼是Node?

跨平台、開源的Node.js JavaScript執行階段環境允許JavaScript程式碼在網頁瀏覽器之外執行。 程式設計師可以透過啟用伺服器端JavaScript或 JS 模組執行來建立可擴充、快速且高效的網路應用程式。 由於Node.js是事件驅動、非阻塞 I/O 模型,因此非常適合開發能夠同時管理多個連接並包含互動式表單元素的即時應用程式。

Node.js經常用於創建各種應用程序,包括 Web 伺服器、API、資料結構流應用程式、即時聊天應用程式、物聯網 (IoT) 設備等等。 綜合來看, Node.js因其高效、快速以及前端和後端對JavaScript 的兼容性而越來越受歡迎,為全端開發提供了單一語言。 請造訪此說明網站的文件頁面,以了解更多關於Node.js的資訊。

如何在Node.js中解析PDF文檔

  1. 若要將 PDF 解析為可讀流,請下載Node.js套件。
  2. 安裝IronPDF for Node.js庫。
  3. 建立一個新的 PDF 文件,或匯入一個包含已解析文件資料的現有 PDF 文件。
  4. 要提取每一行文本,請使用extractText方法。
  5. 檢視已解析的 PDF 內容,以便直接閱讀原始 PDF 檔案。

IronPDF for Node.js

截至我上次更新知識是在 2022 年 1 月, IronPDF主要是一個.NET庫,旨在.NET Framework中運行,使開發人員能夠使用 C# 或 VB .NET處理 PDF 文件。 然而, IronPDF並沒有專門為Node.js開發的原生或直接版本。

由於IronPDF已擴展到支援Node.js並包含其綁定,這很可能意味著用於在Node.js應用程式中建立、編輯和處理 PDF 文件的工具現在已在IronPDF for Node.js中可用。

IronPDF的特點

如果IronPDF已將其產品範圍擴展到包括Node.js版本,這將為開發Node.js應用程式的開發人員提供使用 IronPDF 的 PDF 處理功能的方法。 這對於希望在.NET環境中使用功能類似IronPDF的程式庫的開發人員來說可能很有幫助。

要獲取有關 IronPDF 的功能、相容性和對Node.js的支援的最新信息,應始終查閱IronPDF團隊的官方文件、發行說明或更新。 點擊此處了解更多關於IronPDF以及每個版本新增功能的資訊。 要了解有關IronPDF 的更多信息,請參閱此官方文件頁面

軟體包要求

  • 使用 Visual Studio Code 作為整合開發環境
  • Node.js
  • Yarn 或 npm 可用於套件管理,這是套件安裝所必需的。

安裝適用於Node.js的IronPDF包

啟動命令提示字元或終端機:開啟命令提示字元或終端機。 依作業系統不同,存取方式也各不相同:

  • Windows:PowerShell 或命令提示符 macOS 上的終端 Linux 終端

若要安裝軟體包,請使用軟體包名稱和 npm install 命令。 例如,要安裝軟體包 @ironsoftware/ironpdf,請在終端機中執行以下命令:

npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf
SHELL

如果與您要安裝的軟體包名稱不同,請將 @ironsoftware/ironpdf 替換為您要安裝的軟體包名稱。

如何在Node.js中解析PDF文檔,圖1:安裝IronPDF 安裝IronPDF

解析PDF文件以提取數據

透過實驗可以看出, IronPDF提供了許多功能,可以方便地在Node.js中處理 PDF 檔案。 它專注於產生、檢視和修改所需格式的任何 PDF 文件。 PDF檔案解析起來相當簡單。

const { PdfDocument } = require("@ironsoftware/ironpdf");

const pdfProcess = async () => {
  // Load the existing PDF document
  const pdf = await PdfDocument.fromFile("Demo.pdf");
  // Extract text data from the loaded PDF
  const data = await pdf.extractText();
  // Output the extracted text to the console
  console.log(data);
};

pdfProcess();

上面的程式碼證明了fromFile函數的重要性。 fromFile 方法讀取 PDF 文件並將 PDF 文件轉換為PdfDocument對象,從現有文件系統載入文件。 因此,PdfDocument 保存了 PDF 的元資料。 pdf 物件中的文件元資料可以根據使用者的需求使用。 此物件解析的文件資料是 PDF 頁面物件中包含的文字和圖形。 extractText 函數用於從提供的 PDF 檔案中提取所有文字。之後,提取的文字將以字串形式存儲,並準備進行後續處理,例如建立 JSON 格式。

逐頁文字擷取

下面的程式碼是另一種方法,它明確地從 PDF 文件的每一頁中提取文字。

const pdf = await PdfDocument.fromFile("Demo.pdf");
// Get the total number of pages in the PDF
const pageCount = await pdf.getPageCount();

// Loop through each page to extract text
for (let i = 0; i < pageCount; i++) {
  const pageText = await pdf.extractText(i);
  // Output the text of each page
  console.log(pageText);
}

此範例程式碼從記憶體中已存在的 PDF 檔案完整地載入到指定目錄中,然後建立一個名為 @@--CODE-637--@@ 的 @@--CODE-638--@@ 物件。 PDF文件是一種資料結構,由幾種基本資料物件類型組成。 PDF檔案中的每個頁面資料都是透過其在PDF物件中的頁碼或頁索引來檢索的,以確保按順序處理。 首先,我們使用其 PDF 物件的getPageCount方法來尋找所提供的 PDF 中的總頁數。

for 循環使用此頁數遍歷每一頁,呼叫 extractText 函數從每個 PDF 頁面檢索文字。 提取的文字既可以顯示在使用者螢幕上,也可以保存在字串變數中。 這項技術能夠以有序的方式從單一 PDF 頁面中提取文字。 這些技術展示了IronPDF(一個專門用於 PDF 任務的Node.js庫)如何輕鬆徹底地從 PDF 文件中提取文字。 這種可訪問性增強了 PDF 在各種情況下的實用性,並具有許多實際應用。

如何在Node.js中解析PDF文檔,圖2:逐頁讀取PDF 逐頁閱讀PDF

以上兩種程式碼都能達到相同的輸出效果,唯一的差別在於根據使用者需求實現程式碼的方式不同。 要了解有關IronPDF 的更多信息,請參閱此詳細文件頁面

結論

IronPDF庫提供強大的安全措施,以降低風險並確保資料安全。 它相容於所有主流瀏覽器,並不局限於任何單一瀏覽器。 為了滿足開發者的各種需求,該程式庫提供了多種授權選項,包括免費的開發者授權和可以購買的額外開發授權。

除了永久許可證、一年的軟體維護和 30 天退款保證外,$999 Lite套裝還包含升級選項。 在有浮水印的試用期內,使用者有機會在實際應用環境中評估產品。 請查看提供的授權頁面,以了解有關 IronPDF 的費用、授權和試用版的更多詳細資訊。 若要了解Iron Software提供的其他產品,請查看官方網站

如何在Node.js中解析PDF文檔,圖3: Iron Software定價 Iron Software定價

常見問題解答

我如何在Node.js中解析PDF?

要在Node.js中解析PDF,您可以利用IronPDF庫。首先通過npm install @Iron Software/ironpdf安裝IronPDF包。然後,使用fromFile方法加載PDF並使用extractText方法提取文本。

在Node.js中將HTML轉換為PDF的步驟是什麼?

您可以在Node.js中使用IronPDF將HTML轉換為PDF。對於HTML字符串使用RenderHtmlAsPdf方法,對於HTML文件使用RenderHtmlFileAsPdf方法以高效生成PDF。

如何在Node.js中從每頁PDF中提取文本?

使用IronPDF,您可以通過遍歷頁面從每頁PDF中提取文本。使用getPageCount方法確定頁數,然後使用extractText函數從每頁中提取文本。

IronPDF庫提供了哪些功能供Node.js使用?

IronPDF for Node.js提供了一系列功能,包括HTML到PDF轉換、文本和圖像操作、PDF合並和拆分、加密、數字簽名和表單處理。

我如何確保Node.js中的PDF文件的安全性?

IronPDF提供了全面的安全功能,例如數字簽名、加密和密碼保護,以確保Node.js應用程序中的PDF文件的安全。

選擇Node.js的PDF庫時我應考慮什麼?

選擇Node.js的PDF庫時,請考慮與不同瀏覽器的兼容性、安全選項、易用性、全面的文檔以及許可靈活性。IronPDF提供這些功能,使其成為開發者的強大選擇。

IronPDF在Node.js中有哪些許可選項?

IronPDF提供各種許可選項,包括免費的開發者許可、永久許可以及一年的軟件維護。他們還提供帶有水印版本的試用期,滿足不同開發者的需求。

在Node.js中可以操控PDF中的圖像嗎?

是的,使用IronPDF,您可以在Node.js應用程序中操控PDF中的圖像,這包括添加、提取或修改嵌入在PDF文檔中的圖像。

Darrius Serrant
全棧軟件工程師 (WebOps)

Darrius Serrant 擁有邁阿密大學計算機科學學士學位,目前任職於 Iron Software 的全栈 WebOps 市場營銷工程師。從小就迷上編碼,他認為計算既神秘又可接近,是創意和解決問題的完美媒介。

在 Iron Software,Darrius 喜歡創造新事物,並簡化複雜概念以便於理解。作為我們的駐場開發者之一,他也自願教學生,分享他的專業知識給下一代。

對 Darrius 來說,工作令人滿意因為它被重視且有實際影響。

鋼鐵支援團隊

我們每週 5 天,每天 24 小時在線上。
聊天
電子郵件
打電話給我