使用 IRONPDF FOR NODE.JS

如何在 Node.JS 中讀取 PDF 檔案

已更新 2023年12月12日
分享:

在不斷發展的網頁開發世界中,Node.js 已經成為一個強大的平台,允許開發人員構建可擴展且高效的應用程序。Node.js 的一個迷人方面是它能夠與各種庫和模組無縫合作,擴展其功能。在本文中,我們將深入探討 Node.js PDF 閱讀器的能力,探索 estas IronPDF 庫及其如何用於處理 PDF 文件。

Node.js PDF Reader 是什麼?

Node.js PDF Reader 是一種專門設計的工具,用於方便閱讀和操作 PDF。 (可攜式文件格式) 在 Node.js 環境中處理文件。由於 PDF 文件在不同平台上具有一致的格式,因此被廣泛用於文檔共享。將 PDF 閱讀功能整合到 Node.js 應用程序中,可以開創許多可能性,從提取信息到生成動態報告。

如何使用 Node.js PDF 閱讀器讀取 PDF?

  1. 安裝 Node.js PDF 閱讀器庫。

  2. 引入所需的依賴項。

  3. 使用 PdfDocument.open 方法打開 PDF 文件。

  4. 使用 extractText 方法從 PDF 文件中提取文本。

  5. 使用 Console.Log 方法在控制台上顯示提取的文本。

2. IronPDF for Node.js 介紹

IronPDF 是一個在 Node.js 生態系統中處理 PDF 文件的全面庫。它提供了一系列功能,使其成為需要以程式方式與 PDF 文檔互動的開發人員的首選。由 Iron Software 團隊開發的 IronPDF 以其簡單性和易於集成到 Node.js 項目中而脫穎而出。

2.1. IronPDF 的主要功能

  1. PDF 生成: IronPDF 允許開發者從頭開始創建 PDF 文件,提供對內容、格式和佈局的完全控制。

  2. PDF 解析: 該庫支持從現有的 PDF 文件中提取文本、圖像和其他元素,使開發者能夠處理存儲在這些文件中的數據。

  3. PDF 修改: IronPDF 支持對現有 PDF 文件進行修改,可以動態添加、刪除或更新內容。

  4. PDF 渲染: 使用 IronPDF,開發者可以將 PDF 文件渲染為包括圖像或 HTML 在內的多種格式,擴展在 Web 應用中顯示 PDF 內容的可能性。

  5. 跨平台兼容性: IronPDF 設計為在不同操作系統上無縫工作,確保無論部署環境如何都能保持一致的行為。

2.2. 安裝 IronPDF

在深入瞭解 IronPDF 的功能之前,首先需要在您的 Node.js 專案中安裝這個函式庫。安裝過程非常簡單,可以使用 NPM 來完成。打開您的終端,並執行以下命令:

 npm i @ironsoftware/ironpdf

此命令會安裝 IronPDF 庫,並使其可用於您的 Node.js 應用程式中。

要安裝使用 IronPDF 庫所需的 IronPDF 引擎,請在控制台上執行以下命令。

npm install @ironsoftware/ironpdf-engine-windows-x64

3. 使用 Node.js 和 IronPDF 讀取 PDF 文件

使用 Node.js 和 IronPDF 讀取 PDF 文件涉及一系列簡單的步驟,提供的代碼示例說明了一種簡潔而強大的方法來實現這一點。該代碼使用 @ironsoftware/ironpdf 包中的 PdfDocument 類來打開並從 PDF 文件中提取文本。讓我們逐步拆解代碼:

  1. 匯入 PdfDocument:
    import { PdfDocument } from "@ironsoftware/ironpdf";
NODE.JS

程式碼首先從 IronPDF 庫導入 PdfDocument 類別。這個類別提供了處理 PDF 文件的方法,例如打開、提取文字以及進行各種操作。

  1. 打開 PDF 文件:
    const pdf = await PdfDocument.open("output.pdf");
NODE.JS

PdfDocument.open 方法用於打開 PDF 文件。在此範例中,指定了文件 "output.pdf"。由於 open 方法返回一個 Promise,因此使用了 await 關鍵字。這可確保代碼在 PDF 項目完全加載後再繼續執行下一步。

  1. 從 PDF 中提取文字
    const text = await pdf.extractText();
NODE.JS

一旦 PDF 被打開,將在 pdf 對象上調用 extractText 方法。此方法會異步提取 PDF 文件中的文本內容。結果將存儲在 text 變量中。

  1. 記錄提取的文本
      console.log(text);
NODE.JS

最後,提取的文本使用 console.log 記錄到控制台。這一步對於開發人員來說至關重要,以驗證文本提取過程是否成功並檢查從樣本 PDF 查看器中提取的內容。

  1. Async 函數包裝器
      (async () => { // Code goes here })();
NODE.JS

整個程式碼包裹在使用立即調用函式表示法的非同步函數中 (立即執行函式 ) 使用 async 關鍵字。這允許在函數內使用 await,從而啟用如加載 PDF 和提取文本等異步操作。

總之,此代碼展示了一種簡明而有效的方法,使用 Node.js 和 IronPDF 來閱讀 PDF 文件。通過利用 IronPDF 庫的功能,開發者可以輕鬆地打開 PDF 文件、提取文本內容,並將這些功能整合到他們的 Node.js 應用程序中。

如何在Node.js中读取PDF文件:图1

3.1. 讀取受密碼保護的 PDF 檔案

讀取受密碼保護的 PDF 檔案需要應對保護文件內容的額外安全層。在這種情況下,必須使用支援密碼驗證的 PDF 讀取庫,如 IronPDF。

這個過程包括在打開檔案時提供正確的密碼,以啟動 PDF 內容的解密。這確保了只有授權用戶才能訪問和提取受密碼保護的 PDF 檔案中的信息,從而增強了這些文件中敏感數據的安全性。

const pdf = await PdfDocument.open("encrypted.pdf", "password");
NODE.JS

使用上述代碼,使用者可以閱讀受密碼保護的 PDF 檔案內容。

3.2. 讀取 PDF 文件中繼資料

IronPDF for Node.js 提供了讀取 PDF 文件頁面中繼資料的功能。以下的代碼將展示如何從 PDF 文件中讀取中繼資料。

import {PdfDocument} from "@ironsoftware/ironpdf";

(async () => {
    // Step 1. Import a PDF
const pdf = await PdfDocument.open("output.pdf");
  const metadata = await pdf.getMetadata();
  console.log("\n")
console.log(metadata)
})();
NODE.JS

輸出

如何在 Node.js 中讀取 PDF 文件:圖2

4. 結論

總而言之,Node.js PDF Reader,尤其是使用IronPDF庫時,為開發者處理PDF文件開啟了無限的可能性。無論是使用數據提取策略提取文本、圖像,還是動態修改現有文件,或是創建PDF查看器,IronPDF在Node.js環境中提供了一套多功能的工具來處理PDF,也支持表格數據,並且pdfreader模組可提取文本條目。

要開始使用Node.js PDF data Reader和IronPDF,請按照本文中概述的步驟進行。探索由Iron Software提供的文檔,以獲取更深入的信息和高級使用案例。具備合適的工具和知識,您可以通過使用數據提取規則無縫整合原始PDF緩衝區讀取能力,提升您的Node.js應用程式。

為什麼使用 IronPDF for Node.js?

  1. 免費試用: IronPDF for Node.js 提供 免費試用, 讓開發人員在投入之前探索其功能。此試用期使用戶能夠在不需要經濟承諾的情況下評估該庫對其特定PDF相關任務的適用性。

  2. 功能豐富: IronPDF 功能豐富,提供了全面的功能集來處理 Node.js 中的 PDF 文件。從 PDF 生成到文本提取和文檔修改,該庫提供了強大的工具包,使其適用於各種應用程序。

  3. 代碼示例和文檔/支持: IronPDF 提供了詳盡的文檔和支持,使開發人員能夠輕鬆集成和利用其功能。該庫配有詳細的 程式碼範例,促進平滑的學習曲線,並確保開發人員擁有成功實施所需的資源。
< 上一頁
節點 PDF 開發工具包 (開發者教學)
下一個 >
在 Node.js 中將 HTML 轉換為 PDF 無需 Puppeteer

準備開始了嗎? 版本: 2024.9 剛剛發布

免費 npm 安裝 查看許可證 >