使用 IRONPDF FOR NODE.JS

如何在 Node.js 中解析 PDF 文件

本文將展示如何使用 IronPDF 的 PDF 解析器 Node.js 庫來解析 PDF。

Node 是什麼?

跨平台、開源的 Node.js JavaScript 執行環境允許在網頁瀏覽器之外執行 JavaScript 代碼。 藉由允許伺服器端 JavaScript 或 JS 模組的執行,程式設計師可以建立具有擴展性、快速且有效率的網絡應用程式。 由於 Node.js 是一種事件驅動的非阻塞 I/O 模型,它非常適合開發同時管理多個連接並具有互動式表單元素的即時應用程式。

Node.js經常用於創建各種應用程式,包括網頁伺服器、API、資料結構流應用程式、即時聊天應用程式、物聯網 (IoT) 設備等。 綜上所述,Node.js 因其高效性、速度以及在前端和後端的 JavaScript 相容性而越來越受歡迎,為全端開發提供了單一語言。 查看此解釋網站以獲得說明文件頁面,了解更多關於 Node.js 的資訊。

如何在 Node.js 中解析 PDF 文件

  1. 要解析PDF以獲取可讀流,請下載Node.js套件。

  2. 安裝IronPDF for Node.js庫。

  3. 創建新 PDF 或導入已有 PDF 並解析文件數據。

  4. 要提取每一行文本,可以使用extractText方法。

  5. 查看解析的 PDF 內容以讀取原始 PDF。

IronPDF for Node.js

截至我最後的知識更新(2022年1月),IronPDF主要是一個.NET 函式庫,旨在在.NET Framework中運行,讓開發人員可以使用C#或VB.NET處理PDF文件。 然而,目前尚無專為 Node.js 打造的原生或直接版本的 IronPDF。

隨著IronPDF擴展以支援和包含Node.js綁定,這可能意味著現在可以在IronPDF for Node.js中使用用於在Node.js應用程式中創建、編輯和處理PDF文件的工具。

IronPDF 的功能

  • HTML 轉 PDF 生成:將 HTML 內容轉換為 PDF 文件的功能。
  • 在 PDF 文件中添加、修改或刪除文字、形狀、圖片及其他元素被稱為文字及圖片操作
  • 合併、從 PDF 檔案中提取頁面、分割 PDF 檔案加密和解密 都是 PDF 文件更改的例子。
  • 表單處理 包括填寫表單、獲取表單數據和通過程式設計運用 PDF 表單。
  • PDF 安全性是指對 PDF 文件使用數位簽章、加密和密碼保護
  • 檢索和修改 PDF 文件稱為頁面元數據處理。

    如果 IronPDF 擴展其產品範圍以包含 Node.js 版本,這將為開發 Node.js 應用程式的開發者提供使用 IronPDF 的 PDF 操控功能的方法。 這可能對於希望在 .NET 環境中使用具有與 IronPDF 相似功能的庫的開發人員有幫助。

    應隨時參閱IronPDF團隊的官方文件、發佈說明或更新,以獲得有關IronPDF功能、兼容性及支援Node.js的最新資訊。 請前往這裡了解有關IronPDF及每次發布中的新功能的更多資訊。 要了解更多有關 IronPDF 的資訊,請參閱此官方文件頁面

包需求

  • Visual Studio Code 是 IDE
  • Node.js
  • Yarn 或 npm 可以用於套件管理,這對於套件安裝是必要的。

安裝 IronPDF 套件用於 Node.js

啟動命令提示字元或終端機:開啟命令提示字元或終端機。 根據您的操作系統,有多種方式可以訪問它:

  • Windows:PowerShell 或命令提示字元
  • Mac OS X 終端機
  • 終端在 Linux 上

    組裝套件:要安裝套件,使用套件名稱和 npm install 指令。 例如,要安裝套件@ironsoftware/ironpdf,請在終端機中執行以下命令:

npm i @ironsoftware/ironpdf

@ironsoftware/ironpdf替換為您要安裝的套件名稱。 安裝實際的套件。

如何在 Node.js 中解析 PDF 文件,圖 1:安裝 IronPDF

安裝 IronPDF

解析 PDF 文件以提取數據

通過實驗,您可以看到IronPDF提供了許多功能以便在Node.js中處理PDF。 專注於生成、查看和修改任何所需格式的 PDF 文件。 PDF 文件解析起來相當簡單。

const { PdfDocument } = require("@ironsoftware/ironpdf");

const pdfprocess = async () => {
  // Load the existing PDF document
  const pdf = await PdfDocument.fromFile("Demo.pdf");
  var data = await pdf.extractText();
  console.log(data);
};
pdfprocess();
js
JAVASCRIPT

上述程式碼展示了fromFile函數的重要性。 fromFile 方法允許讀取 PDF 文件並將 PDF 文件轉換為 PdfDocument 物件,從現有的文件系統中加載文件。 因此,PdfDocument 包含 PDF 的元數據。 pdf 對象中的文件元數據可以根據用戶的需求進行使用。 此對象解析文件數據是 PDF 頁面對象中包含的文本和圖形。 extractText 函數用於從提供的 PDF 文件中提取所有文本。之後,提取的文本將被保存為字串,並準備進行其他處理,例如創建 JSON 格式。

按頁提取文本

以下是第二種方法的程式碼,它顯式地從 PDF 文件的每一頁中提取文字。

const pdf = await PdfDocument.fromFile("Demo.pdf");
var pagecount = await pdf.getPageCount();
for (var i = 0; i < pagecount; i++) {
  var spdf = await pdf.extractText(i);
  console.log(spdf);
}
js
JAVASCRIPT

此範例程式碼從指定的目錄將內存中已有的原始 PDF 完整加載,然後創建一個名為 pdf 的PdfDocument對象。 PDF 文件是一種由多種基本數據對象類型組成的數據結構。 PDF 文件中的每個頁面數據都是使用 PDF 對象中的頁碼或頁索引檢索,以確保逐個處理。 首先,我們使用其 PDF 對象的 getPageCount 方法來找出所提供 PDF 的總頁數。

For 迴圈使用此頁數遍歷每個頁面,調用 extractText 函數以從每個 PDF 頁面檢索文本。 提取的文字可以顯示在用戶的螢幕上,或者儲存在一個字串變數中。 因此,此技術使得能夠以有序的方式從單個 PDF 頁面中提取文本。 這些技術展示了IronPDF,專為PDF任務打造的Node.js庫,如何輕鬆且徹底地從PDF文件中提取文本。 這種可及性增強了PDF在各種情境中的實用性,並有許多實際應用。

如何在 Node.js 中解析 PDF 文檔,圖 2:逐頁閱讀 PDF

逐頁讀取 PDF

上述兩段代碼返回相同的輸出,但唯一的變化是根據用戶需求實現的代碼。 欲了解更多有關 IronPDF 的資訊,請參閱此詳細文件頁面

結論

IronPDF 資料庫提供強大的安全措施,以降低風險並確保數據安全。 它與所有流行的瀏覽器兼容,並不限於其中任何一個。 為了滿足開發人員的各種需求,該庫提供了多種許可選項,包括免費開發者許可證和可購買的其他開發許可證。

除了永久授權、一年的軟體維護和三十天的退款保證,$749 Lite 套裝還包括升級的可能性。 用戶有機會在帶水印試用期間於實際應用情境中評估該產品。 請查看提供的授權頁面以獲取有關IronPDF的成本、授權和試用版的更多詳細資訊。 要了解Iron Software提供的其他產品,請查看官方網站

在 Node.js 中解析 PDF 文檔的方法,圖 3:Iron Software 價格

Iron Software 價格

Darrius Serrant
全端軟體工程師(WebOps)

Darrius Serrant 擁有邁阿密大學的計算機科學學士學位,目前擔任 Iron Software 的全端 WebOps 行銷工程師。自幼對編程產生興趣,他認為計算機既神秘又易於接觸,使其成為創造力和解決問題的完美媒介。

在 Iron Software,Darrius 享受創造新事物並簡化複雜概念使其更易理解的過程。作為我們的其中一位常駐開發人員,他也自願教導學生,將他的專業知識傳授給下一代。

對 Darrius 來說,他的工作之所以令人滿足,是因為它受到重視並且產生了真正的影響。

< 上一頁
如何在 Node.js 中壓縮 PDF 文件
下一個 >
如何在 Node.js 中從 URL 下載 PDF 文件

準備開始了嗎? 版本: 2025.5 剛剛發布

查看許可證 >