使用 IRONPDF FOR NODE.JS

如何在 Node.js 中解析 PDF 文件

發佈 2023年12月12日
分享:

介紹

便攜式文檔格式稱為 PDF。Adobe 開發了一種文件格式,用於顯示文檔或解析具有文本格式和圖像的物件,該格式不依賴於操作系統、硬體或應用軟體。PDF 檔案和文檔標題中可以包含文本、照片、表單、互動按鈕、超連結、嵌入字體及其他材料。由於它們能夠在各種設備和軟體上保持其頁面物件格式和 PDF 緩衝區中繼資料,因此 PDF 檔案經常用於文檔共享。表單、電子書、手冊和其他需要保持相同輸出格式和布局的產品通常會轉換為 PDF 格式。在本文中,我們將看到如何使用 Node.js 和 IronPDF,PDF 解析器 Node 庫來解析 PDF。

什麼是 Node?

跨平台、開源的 Node.js JavaScript 運行環境允許 JavaScript 代碼在網頁瀏覽器外部執行。通過啟用伺服器端 JavaScript 或 JS 模塊執行,程式開發人員可以創建可擴展、快速且高效的網路應用程式。由於 Node.js 是事件驅動、非阻塞的 I/O 範式,因此非常適合開發同時管理多個連接的即時應用程式,這些應用程式具有互動式的表單元素。

Node.js 經常被用於創建各種應用程式,包括網路伺服器、API、數據結構流應用程序、即時聊天應用程式、物聯網 (物聯網) 設備等。總而言之,Node.js 因其效能、速度及前後端 JavaScript 相容性而越來越受歡迎,為全端開發提供單一語言。請檢查 連結 查看文檔頁面以了解更多關於 Node.js 的資訊。

如何在 Node.js 中解析 PDF 文件

  1. 要解析可讀的 PDF 串流,下載 Node.js 套件。

  2. 安裝 IronPDF Node.js 函式庫。

  3. 使用解析後的文件數據創建一個新的 PDF 或導入現有的 PDF。

  4. 要提取所有行的文本,使用 "extractText"。()方法。

  5. 將解析的 PDF 內容用於原始 PDF 閱讀。

IronPDF for Node.js

截至我在 2022 年 1 月最後的知識更新,IronPDF 主要是一個基於 .NET 的庫,用於在 .NET 框架中使用 C# 或 VB.NET 操作 PDF 文件。然而,當時沒有專門為 Node.js 開發的原生或直接版本的 IronPDF。

隨著 IronPDF 支持並包含 Node.js 綁定,這很可能表示現在可以在 Node.js 應用程序中使用 IronPDF for Node.js 來創建、編輯和處理 PDF 文件的工具。

IronPDF的功能

  • HTML轉PDF生成:能將HTML內容轉換為PDF文件。
  • 增加、修改或刪除PDF文件中的文本、形狀、圖像和其他元素稱為文本和圖像操作。
  • 合併、提取PDF文件中的頁面、分割PDF文件、加密和解密都是PDF文件修改的例子。
  • 表單處理包括填寫表單、獲取表單數據,以及通過編程利用PDF表單。
  • PDF安全性是指對PDF文件使用數字簽名、加密和密碼保護。
  • 檢索和修改PDF文件稱為頁面元數據處理。

如果IronPDF擴展其產品範圍,包括Node.js版本,這將為開發Node.js應用的開發者提供使用IronPDF的PDF操作功能的方式。這對於偏好使用與IronPDF在.NET環境中類似功能的庫的開發者來說可能會很有幫助。

應始終查閱IronPDF團隊的官方文檔、發布說明或更新,以獲取關於IronPDF功能、兼容性和對Node.js支持的最新信息。軟件庫可能在我最後一次知識更新後有所增長或改變。要了解更多關於IronPDF的信息,請點擊此處。 這裡.

套件需求

  • Visual Studio Code 是集成開發環境(IDE)
  • Node.js
  • Yarn 或 npm 可以用於套件管理,這對於套件的安裝是必要的。

安裝 IronPDF 套件給 Node.js

啟動命令提示符或終端機:打開命令提示符或終端機。根據您的操作系統,有多種方式可以訪問:

  • Windows: PowerShell 或 命令提示符
  • Mac OS X: 終端機
  • Linux: 終端機

組裝套件:要安裝套件,使用套件名稱和 npm install 指令。例如,將 @ironsoftware/ironpdf 套件安裝到終端機中,請執行以下指令:

 npm i @ironsoftware/ironpdf

將 @ironsoftware/ironpdf 替換為您要安裝的套件名稱。要安裝實際的套件。

如何在Node.js中解析PDF文件:圖1 - 安裝IronPDF

解析 PDF 文件以提取數據

從實驗中,你可以看到 IronPDF 提供了很多功能,以便在 Node.js 中處理 PDF。它專注於生成、查看和修改任何所需格式的 PDF 文件。解析 PDF 文件相當簡單。

const { PdfDocument } = require("@ironsoftware/ironpdf");
const pdfprocess = async () => {
  // Load the existing PDF document
  const pdf = await PdfDocument.fromFile("Demo.pdf");
  var data=await pdf.extractText();
  console.log(data);
};
pdfprocess();
JAVASCRIPT

fromFile 函數的重要性由上面的代碼展示出來。fromFile 方法允許我們讀取 PDF 文檔並把 PDF 文件轉換為 PDFDocument 對象,從現有的文件系統中載入文件。因此,PdfDocument 持有 PDF 的元數據。pdf 對象中的文件元數據可以根據用戶的需要使用。這個對象解析的文檔數據是 PDF 頁面對象內包含的文本和圖形。extractText 函數用於提取提供的 PDF 文件中的所有文本。之後,檢索到的文本會以字符串形式保存並準備進行進一步的處理,例如創建 JSON 格式。

分頁文字提取

以下是第二種方法的代碼,該方法會明確地從每一頁的PDF文件中提取文字。

const pdf = await PdfDocument.fromFile("Demo.pdf");
  var pagecount = await pdf.getPageCount();
  for (var i = 0; i < pagecount; i++) {
    var spdf = await pdf.extractText(i);
    console.log(spdf);
  }
JAVASCRIPT

記憶中已存在的 PDF 的原始 PDF 資料是從指定目錄中完整載入的,以下範例代碼會創建一個名為 pdf 的 PdfDocument 物件。PDF 文件是一種由多個基本數據對象類型組成的數據結構。PDF 文件中的每個頁面數據會使用其頁碼或頁索引從 PDF 物件中檢索,確保它們依次被處理。首先,我們使用 PDF 物件的 PageCount 方法來查找所提供 PDF 的總頁數。

For 迴圈使用此頁數遍歷每個頁面,調用 extractText 函數從每個 PDF 頁面檢索文本。提取的文字可以顯示在用户的螢幕上,或保存到一個字串變數中。因此,這種技術使能夠有序地從單個 PDF 頁面中提取文本。這些技術展示了 IronPDF,這是一個專為 PDF 作業設計的 Node.js 庫,如何輕鬆且徹底地從 PDF 文件中提取文本。這種可訪問性增強了 PDF 在各種情境中的實用性,並具有諸多實際應用。

如何在 Node.js 中解析 PDF 文件:圖 2 - 頁面逐頁閱讀 PDF

以上兩段代碼返回相同的輸出,但唯一的區別是在滿足用戶需求的基礎上實現代碼。要了解更多關於 IronPDF 的資訊,請參閱 這裡.

結論

IronPDF 函式庫提供了強大的安全措施以降低風險並確保資料安全。它與所有流行的瀏覽器相容,而不僅限於其中任何一個。為了滿足開發者的各種需求,該函式庫提供了多種授權選項,包括免費的開發者授權和額外可以購買的開發授權。

除了永久授權、一年軟體維護和三十天退款保證外,$liteLicense Lite 套組還包括升級選項。使用者有機會在加水印的試用期內評估產品在實際應用情況下的表現。請檢查所提供的 連結 了解有關IronPDF的成本、許可和試用版本的更多詳情。要了解Iron Software提供的其他產品,請查看該鏈接。 這裡.

如何在 Node.js 中解析 PDF 文件:圖 3

< 上一頁
如何在 Node.js 中壓縮 PDF 文件
下一個 >
如何在 Node.js 中從 URL 下載 PDF 文件

準備開始了嗎? 版本: 2024.9 剛剛發布

免費 npm 安裝 查看許可證 >