使用 IRONPDF FOR NODE.JS

如何在 Node.js 中解析 PDF 文件

已更新 2024年10月8日
分享:

本文將展示如何使用 IronPDF 的 PDF 解析器 Node.js 庫來解析 PDF。

Node 是什麼?

跨平台、開源的 Node.js JavaScript 執行環境允許在網頁瀏覽器之外執行 JavaScript 代碼。 藉由允許伺服器端 JavaScript 或 JS 模組的執行,程式設計師可以建立具有擴展性、快速且有效率的網絡應用程式。 由於 Node.js 是一種事件驅動的非阻塞 I/O 模型,它非常適合開發同時管理多個連接並具有互動式表單元素的即時應用程式。

Node.js 經常用於創建各種應用程式,包括網頁伺服器、API、資料結構串流應用程式、即時聊天應用程式、物聯網。(物聯網)設備,等等。 綜上所述,Node.js 因其高效性、速度以及在前端和後端的 JavaScript 相容性而越來越受歡迎,為全端開發提供了單一語言。 查看此內容說明網站查看文檔頁面以了解更多關於 Node.js 的資訊。

如何在 Node.js 中解析 PDF 文件

  1. 要解析PDF以獲取可讀流,請下載Node.js套件。

  2. 安裝IronPDF for Node.js庫。

  3. 創建新 PDF 或導入已有 PDF 並解析文件數據。

  4. 要提取每一行文本,請使用Extract Text方法。

  5. 查看解析的 PDF 內容以讀取原始 PDF。

IronPDF for Node.js

截至我最後的知識更新(2022年1月),IronPDF主要是一個.NET 函式庫,旨在在.NET Framework中運行,讓開發人員可以使用C#或VB.NET處理PDF文件。 然而,目前尚無專為 Node.js 打造的原生或直接版本的 IronPDF。

隨著IronPDF擴展以支援和包含Node.js綁定,這可能意味著現在可以在IronPDF for Node.js中使用用於在Node.js應用程式中創建、編輯和處理PDF文件的工具。

IronPDF 的功能

*HTML轉PDF生成將 HTML 內容轉換為 PDF 文件的功能。

  • 在 PDF 文件中添加、更改或刪除文本、形狀、圖片及其他元素被稱為文本和圖片處理.

    *结合從 PDF 文件中提取頁面,拆分PDF文件,和加密和解密它們都是 PDF 文件更改的例子。

    *表單處理涵蓋填寫表單、獲取表單數據以及通過程式設計利用PDF表單。

  • PDF安全性是使用數位簽章,加密,以及密码保护用於PDF文件。
  • 檢索和修改 PDF 文件稱為頁面元數據處理。

    如果 IronPDF 擴展其產品範圍以包含 Node.js 版本,這將為開發 Node.js 應用程式的開發者提供使用 IronPDF 的 PDF 操控功能的方法。 這可能對於希望在 .NET 環境中使用具有與 IronPDF 相似功能的庫的開發人員有幫助。

    應隨時參閱IronPDF團隊的官方文件、發佈說明或更新,以獲得有關IronPDF功能、兼容性及支援Node.js的最新資訊。 請前往這裡了解有關IronPDF及每次發布中的新功能的更多資訊。 欲了解更多有關IronPDF的資訊,請參閱此處官方文件頁面.

包需求

  • Visual Studio Code 是 IDE
  • Node.js
  • Yarn 或 npm 可以用於套件管理,這對於套件安裝是必要的。

安裝 IronPDF 套件用於 Node.js

啟動命令提示字元或終端機:開啟命令提示字元或終端機。 根據您的操作系統,有多種方式可以訪問它:

  • Windows:PowerShell 或命令提示字元
  • Mac OS X 終端機
  • 終端在 Linux 上

    組裝套件:要安裝套件,使用套件名稱和 npm install 指令。 例如,要安裝套件 @ironsoftware/ironpdf,請在終端機中執行以下命令:

npm i @ironsoftware/ironpdf

@ironsoftware/ironpdf 替換為您想要安裝的套件名稱。 安裝實際的套件。

如何在 Node.js 中解析 PDF 文件,圖 1:安裝 IronPDF

安裝 IronPDF

解析 PDF 文件以提取數據

通過實驗,您可以看到IronPDF提供了許多功能以便在Node.js中處理PDF。 專注於生成、查看和修改任何所需格式的 PDF 文件。 PDF 文件解析起來相當簡單。

const { PdfDocument } = require("@ironsoftware/ironpdf");

const pdfprocess = async () => {
  // Load the existing PDF document
  const pdf = await PdfDocument.fromFile("Demo.pdf");
  var data = await pdf.extractText();
  console.log(data);
};
pdfprocess();
JAVASCRIPT

重要性從檔案由上面的程式碼示範函數。 fromFile 方法允許讀取 PDF 文件並將 PDF 文件轉換成PdfDocument物件,從現有的檔案系統載入檔案。 因此,PdfDocument 保存了 PDF 的元數據。 pdf 對象中的文件元數據可以根據用戶的需求進行使用。 此對象解析文件數據是 PDF 頁面對象中包含的文本和圖形。 extractText 函數用於從提供的 PDF 文件中提取所有文本。之後,檢索到的文本將被保存為字符串,並準備進行其他處理,例如創建 JSON 格式。

按頁提取文本

以下是第二種方法的程式碼,它顯式地從 PDF 文件的每一頁中提取文字。

const pdf = await PdfDocument.fromFile("Demo.pdf");
var pagecount = await pdf.getPageCount();
for (var i = 0; i < pagecount; i++) {
  var spdf = await pdf.extractText(i);
  console.log(spdf);
}
JAVASCRIPT

此範例程式碼會從指定目錄中完全載入已在記憶體中的原始 PDF,然後建立一個名為 pdf 的 PdfDocument 物件。 PDF 文件是一種由多種基本數據對象類型組成的數據結構。 PDF 文件中的每個頁面數據都是使用 PDF 對象中的頁碼或頁索引檢索,以確保逐個處理。 首先,我們使用getPageCount其 PDF 物件的方法來找到提供的 PDF 中的總頁數。

使用此頁數,for 迴圈遍歷每一頁,調用 extractText 函數從每個 PDF 頁面擷取文本。 提取的文字可以顯示在用戶的螢幕上,或者儲存在一個字串變數中。 因此,此技術使得能夠以有序的方式從單個 PDF 頁面中提取文本。 這些技術展示了IronPDF,專為PDF任務打造的Node.js庫,如何輕鬆且徹底地從PDF文件中提取文本。 這種可及性增強了PDF在各種情境中的實用性,並有許多實際應用。

如何在 Node.js 中解析 PDF 文檔,圖 2:逐頁閱讀 PDF

逐頁閱讀 PDF

上述兩段代碼返回相同的輸出,但唯一的變化是根據用戶需求實現的代碼。 如需了解有關IronPDF的更多信息,請參考此內容詳細的文件頁面.

結論

IronPDF 資料庫提供強大的安全措施,以降低風險並確保數據安全。 它與所有流行的瀏覽器兼容,並不限於其中任何一個。 為了滿足開發人員的各種需求,該庫提供了多種許可選項,包括免費開發者許可證和可購買的其他開發許可證。

除了永久授權、一年的軟體維護和三十天退款保證,$749 Lite套裝還包括升級的可能性。 用戶有機會在帶水印試用期間於實際應用情境中評估該產品。 請檢查提供的授權頁面了解更多有關 IronPDF 的成本、授權和試用版本的詳細資訊。 要了解 Iron Software 提供的其他產品,請查看官方網站.

如何在 Node.js 中解析 PDF 文件,圖 3:Iron Software 價格

Iron Software 價格

< 上一頁
如何在 Node.js 中壓縮 PDF 文件
下一個 >
如何在 Node.js 中從 URL 下載 PDF 文件

準備開始了嗎? 版本: 2024.11 剛剛發布

免費 npm 安裝 查看許可證 >