使用 IRONPDF FOR NODE.JS

如何在 Node.js 中讀取 PDF 文件

已更新 2024年10月8日
分享:

在不斷變化的網頁開發世界中,Node.js 已經成為一個強大的平台,讓開發人員能夠構建可擴展且高效的應用程式。 Node.js 的一個迷人之處在於它能夠無縫地與各種庫和模組協作,從而擴展其功能。 在本文中,我們將深入探討Node.js PDF閱讀器功能,探索IronPDF庫及其如何用於處理 PDF 文件。

什麼是 Node.js PDF Reader?

Node.js PDF Reader 是一種專門設計的工具,用於便捷地讀取和操作 PDF 文件。(可攜式文件格式)在 Node.js 環境中處理文件。 PDF 文件由於在不同平台上具有一致的格式,廣泛用於文件共享。 將 PDF 閱讀功能整合到 Node.js 應用程式中,可以開創廣泛的可能性,從提取信息到生成動態報告。

如何使用 Node.js PDF Reader 讀取 PDF?

  1. 安裝 Node.js PDF 閱讀器庫。

  2. 導入所需的依賴項。

  3. 使用以下方法開啟 PDF 文件PdfDocument.open方法。

  4. 使用以下內容從 PDF 檔案中提取文字:Extract Text方法。

  5. 使用 console.log 方法在控制台顯示提取的文本。

2. IronPDF for Node.js 介紹

IronPDF 是一個用於在 Node.js 生態系統中處理 PDF 文件的綜合庫。 它提供了一系列功能,是需要以程式化方式與 PDF 文件互動的開發人員的首選。 IronPDF由Iron Software團隊開發,以其簡單性和易於整合到Node.js項目中而聞名。

2.1. IronPDF 的主要功能

  1. PDF 生成IronPDF** 允許開發人員從頭開始創建 PDF 文件,完全控制內容、格式和佈局。

  2. **PDF解析該函式庫可從現有的 PDF 文件中提取文字、圖像及其他元素,使開發人員能夠處理這些文件中儲存的數據。

  3. PDF 修改:IronPDF 支援Edit existing PDF files,使其可以動態添加、移除或更新內容。

  4. PDF 渲染: 使用 IronPDF,開發人員可以將 PDF 文件渲染為各種格式,包括從圖像從HTML,擴展了在網路應用程式中顯示 PDF 內容的可能性。

  5. 跨平台相容性: IronPDF 設計用於在不同操作系統中無縫運作,確保無論部署環境為何都能維持一致的行為。

2.2. 安裝 IronPDF

在探討 IronPDF 的功能之前,首先要在您的 Node.js 專案中安裝該庫。 安裝過程簡單,可以使用 NPM 軟體包管理器完成。 開啟終端並執行以下命令:

npm i @ironsoftware/ironpdf

此命令安裝 IronPDF 庫,並使其在您的 Node.js 應用程序中可用。

要安裝必須使用的IronPDF引擎以使用IronPDF庫,請在控制台上運行以下命令:

npm install @ironsoftware/ironpdf-engine-windows-x64

3. 使用 Node.js 和 IronPDF 讀取 PDF 文件

使用 Node.js 和 IronPDF 讀取 PDF 文件涉及一系列簡單的步驟,提供的代碼示例展示了一種簡潔而強大的方法來實現這一點。 該代碼利用了PdfDocument@ironsoftware/ironpdf 套件中使用類別來打開和提取 PDF 文件中的文本。讓我們一步一步地分析這段程式碼:

  1. 導入 PdfDocument:
    import { PdfDocument } from "@ironsoftware/ironpdf";
NODE.JS

程式碼開始從 IronPDF 程式庫中匯入 PdfDocument 類別。 此類別提供用於處理 PDF 文件的方法,例如打開、提取文字及執行各種操作。

  1. 開啟 PDF 文件:
    const pdf = await PdfDocument.open("output.pdf");
NODE.JS

PdfDocument.open 方法用於打開 PDF 文件。在此範例中,指定了檔案 "output.pdf"。 使用 await 關鍵字是因為開啟方法返回一個Promise。這確保程式碼在進入下一步驟之前會等待PDF項目完全載入。

  1. 從 PDF 提取文字:
    const text = await pdf.extractText();
NODE.JS

一旦 PDF 被打開,會在 pdf 對象上調用 extractText 方法。 此方法會以非同步方式從 PDF 文件中提取文本內容。 結果儲存在 text 變數中。

  1. 記錄提取的文本:
    console.log(text);
NODE.JS

最後,提取的文本使用 console.log 輸出到控制台。 這個步驟對開發者來說至關重要,以驗證文本提取過程是否成功,並檢查從範例 PDF 檢視器中提取的內容。

  1. async 函數包裝器:
    (async () => { // Code goes here })();
NODE.JS

整個程式碼包裹在使用立即調用函式表示法的非同步函數中(立即執行函式 )使用 async 關鍵字。 這允許在函數內使用 await,啟用非同步操作,例如加載 PDF 和提取文本。

總而言之,此程式碼展示了一種使用 Node.js 和 IronPDF 閱讀 PDF 文件的簡短且有效的方法。 通過利用IronPDF庫的功能,開發者可以輕鬆打開PDF文檔,提取文本內容,並將這些功能集成到他們的Node.js應用程式中。

如何在 Node.js 中閱讀 PDF 文件,圖 1:從示例 PDF 文件中提取的文本

從範例 PDF 文件中擷取的文字

3.1. 讀取受密碼保護的 PDF 檔案

閱讀受密碼保護的 PDF 文件需要處理保護文件內容的額外安全層。 在這種情況下,使用支持密碼驗證的 PDF 閱讀庫,例如 IronPDF,是至關重要的。

該過程涉及在文件打開階段提供正確的密碼,從而使 PDF 內的內容得以解密。 這可確保只有授權用戶才能訪問和提取受密碼保護的 PDF 文件中的信息,從而增強這些文檔中敏感數據的安全性。

const pdf = await PdfDocument.open("encrypted.pdf", "password");
NODE.JS

使用上述程式碼,使用者可以讀取受密碼保護的 PDF 檔內容。

3.2. 讀取 PDF 文件的元數據

IronPDF for Node.js 提供讀取 PDF 文件頁面中繼資料的功能。 下面的程式碼將演示如何從 PDF 文件中讀取元數據。

import { PdfDocument } from "@ironsoftware/ironpdf";

(async () => {
  // Step 1. Import a PDF
  const pdf = await PdfDocument.open("output.pdf");
  const metadata = await pdf.getMetadata();
  console.log("\n")
  console.log(metadata)
})();
NODE.JS

輸出

如何在 Node.js 中讀取 PDF 文件,圖 2:從範例 PDF 文件中提取的元數據

從範例 PDF 文件中提取的元數據

4. 結論

總之,Node.js PDF Reader,尤其是在利用IronPDF庫時,為處理PDF文件的開發人員開闢了一個充滿可能性的世界。 無論是透過數據提取策略擷取文本、圖像,還是動態修改現有文檔,或者是創建 PDF 查看器,IronPDF 都在 Node.js 環境中提供了一套多功能的工具來處理 PDF。 它還支持表格數據,並且 PDF 閱讀器模組可以提取文本條目。

要開始使用 Node.js PDF 數據讀取器和 IronPDF,請按照本文中的步驟操作。 探索Iron Software 文件檔案深入資訊和高級用例。 擁有合適的工具與知識,您可以通過使用數據提取規則無縫整合原始 PDF 緩衝區讀取功能來增強您的 Node.js 應用程序。

為什麼使用 IronPDF for Node.js?

  1. 免費試用:IronPDF for Node.js 提供一個IronPDF for Node.js 的免費試用版,允許開發人員在承諾之前探索其功能。 試用期讓使用者可以在不需要財務承諾的情況下評估此函式庫對其特定 PDF 任務的適用性。

  2. 功能豐富:IronPDF Node.js 功能概述功能豐富,為在 Node.js 中處理 PDF 文件提供全面的功能集。 從 PDF 生成到文字提取和文件修改,此庫提供強大的工具包,使其在廣泛的應用中具有多功能性。

  3. 程式碼範例和文檔/支持: IronPDF 提供了豐富的文檔和支持,使開發人員能夠輕鬆整合和使用其功能。 該程式庫附有詳細的Node.js PDF 轉換範例,促進平滑的學習曲線,並確保開發人員擁有成功實施所需的資源。
< 上一頁
Node.js PDF SDK(開發人員教程)
下一個 >
在 Node.js 中將 HTML 轉換為 PDF 無需 Puppeteer

準備開始了嗎? 版本: 2024.12 剛剛發布

免費 npm 安裝 查看許可證 >