跳過到頁腳內容
使用 IRONPDF FOR NODE.JS

如何在 Node.js 中解析 PDF 文件

本文將示範如何使用Node.js與IronPDF這個Node.js PDF解析庫來解析PDF。

什麼是Node?

跨平台、開源的Node.js JavaScript運行環境允許JavaScript代碼在瀏覽器外部執行。 程序員可以通過啓用服務器端JavaScript或JS模塊執行來創建可擴展、快速且高效的網絡應用程序。 由於Node.js是一個事件驅動、非阻塞的I/O模型,它非常適合開發能同時處理多個連接並具有互動表單元素的實時應用程序。

Node.js經常被用於創建多種應用程序,包括Web服務器、API、數據結構流應用程序、實時聊天應用程序、物聯網設備等等。 綜上所述,由於Node.js的高效、快速以及JavaScript在前端和後端的兼容性,提供了一個用於全棧開發的單一語言,因此其受歡迎程度不斷上升。 查看這個説明網站,獲取更多關於Node.js的文檔。

如何在Node.js中解析PDF文檔

  1. 下載Node.js包以解析PDF為可讀流。
  2. 安裝IronPDF for Node.js庫。
  3. 使用解析後的文檔數據創建新的PDF或導入現有的PDF。
  4. 使用extractText方法提取每一行文字。
  5. 查看解析的PDF內容以便原始PDF讀取。

IronPDF for Node.js

截至我在2022年1月的最後一次知識更新,IronPDF在很大程度上是一個為.NET框架而構建的.NET庫,使開發者能夠使用C#或VB.NET處理PDF文檔。 然而,當時並沒有為Node.js專門製作的原生或直接版本的IronPDF。

隨著IronPDF擴展以支持包括Node.js的綁定,這可能意味著現在IronPDF for Node.js中提供了用於在Node.js應用程序中創建、編輯和處理PDF文檔的工具。

IronPDF的特點

如果IronPDF已擴展其產品範圍以包括Node.js版本,那麼這將為製作Node.js應用程序的開發者提供了一個使用IronPDF的PDF操作功能的方法。 這對希望使用與IronPDF在.NET環境中類似功能的庫的開發者可能會很有幫助。

IronPDF的官方文檔、釋出說明或更新應始終查閱,以獲取關於IronPDF的功能、兼容性和對Node.js支持的最新和最準確的信息。 在這裏去了解更多有關IronPDF及每次發布的新功能。 欲了解更多有關IronPDF的信息,請參見此官方文檔頁面

包需求

  • Visual Studio Code作為IDE
  • Node.js
  • Yarn或npm可用於包管理,這是安裝包所必需的。

為Node.js安裝IronPDF包

啟動命令提示符或終端:打開命令提示符或終端。 基於您的操作系統,有多種方式以訪問它:

  • Windows: PowerShell或命令提示符
  • macOS上的終端
  • Linux上的終端

要安裝包,請使用包名和npm install命令。 例如,要安裝包@ironsoftware/ironpdf,在終端中運行以下命令:

npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf
SHELL

如果要安裝不同的包,請替換@ironsoftware/ironpdf為你想要安裝的包名稱。

如何在Node.js中解析PDF文檔,圖1:安裝IronPDF 安裝IronPDF

解析PDF文件以提取數據

從實驗中,你可以看到IronPDF提供了很多功能來方便在Node.js中處理PDF。 它專注於生成、查看和修改任何所需格式的PDF文檔。 PDF文件非常簡單易解析。

const { PdfDocument } = require("@ironsoftware/ironpdf");

const pdfProcess = async () => {
  // Load the existing PDF document
  const pdf = await PdfDocument.fromFile("Demo.pdf");
  // Extract text data from the loaded PDF
  const data = await pdf.extractText();
  // Output the extracted text to the console
  console.log(data);
};

pdfProcess();

fromFile方法的重要性體現於上面的代碼中。 fromFile方法讀取PDF文檔並將它轉換為PdfDocument對象,從一個現有的文件系統中加載文件。 因此PdfDocument包含了PDF的元數據。 用戶可以隨心所欲地使用PDF對象中的文件元數據。 此對象所解析的文檔數據是PDF頁面對象內的文本和圖形。 extractText功能用於從提供的PDF文件中提取所有文本。然後,提取出的文本被存儲為字符串,並準備進行附加處理,例如創建JSON格式。

逐頁文本提取

下面是另一種方法的代碼,這種方法明確地從PDF文件的每一頁提取文本。

const pdf = await PdfDocument.fromFile("Demo.pdf");
// Get the total number of pages in the PDF
const pageCount = await pdf.getPageCount();

// Loop through each page to extract text
for (let i = 0; i < pageCount; i++) {
  const pageText = await pdf.extractText(i);
  // Output the text of each page
  console.log(pageText);
}

這段範例代碼從指定目錄中加載內存中的PDF的原始PDF讀取,在完全加載後創建一個名為pdfPdfDocument對象。 一個PDF文檔是一個由若干基本數據對象類型組成的數據結構。通過其頁碼或頁索引在PDF對象中檢索PDF文件中的每個頁面數據,以確保其一個接一個地被處理。 首先,我們使用PDF對象的getPageCount方法來獲取所提供PDF的總頁數。

for循環利用此頁數來迭代每個頁面,調用extractText函數以從每個PDF頁面提取文本。 提取的文本可以顯示在用戶的屏幕上或保存到一個字符串變量中。 這一技術使得從單個PDF頁面中有組織地提取文本成為可能。 這些技術展示了如何通過這個專為PDF任務而開發的Node.js庫IronPDF輕鬆且全面地從PDF文件中提取文本。 這種可及性增強了PDF在各種情境下的實用性並具有多個實際應用。

如何在Node.js中解析PDF文檔,圖2:逐頁閱讀PDF 逐頁閱讀PDF

兩段代碼都達到了相同的輸出,但唯一的區別是在基於用戶需求的代碼實現上。 欲知更多有關IronPDF的信息,請參見此詳細文檔頁面

結論

IronPDF庫提供了強大的安全措施來降低風險並確保數據安全。 它兼容所有流行瀏覽器,而不限於任何一個瀏覽器。 為滿足開發者的多種需求,該庫提供了廣泛的許可選擇,包括一個免費的開發者許可和可以購買的進一步開發許可。

除了永久許可證、一年的軟件維護和三十天退款保證,$799 Lite捆綁包還包括升級選項。 用戶在打有水印的試用期內有機會在實際應用情況下評估產品。 欲了解更多關於IronPDF的費用、許可和試用版的詳細信息,請查看提供的許可頁面。 欲了解Iron Software提供的其他產品,請查閱官方網站

如何在Node.js中解析PDF文檔,圖3:Iron Software定價 Iron Software定價

常見問題解答

我如何在Node.js中解析PDF?

要在Node.js中解析PDF,您可以利用IronPDF庫。首先通過npm install @ironsoftware/ironpdf安裝IronPDF包。然後,使用fromFile方法加載PDF並使用extractText方法提取文本。

在Node.js中將HTML轉換為PDF的步驟是什麼?

您可以在Node.js中使用IronPDF將HTML轉換為PDF。對於HTML字符串使用RenderHtmlAsPdf方法,對於HTML文件使用RenderHtmlFileAsPdf方法以高效生成PDF。

如何在Node.js中從每頁PDF中提取文本?

使用IronPDF,您可以通過遍歷頁面從每頁PDF中提取文本。使用getPageCount方法確定頁數,然後使用extractText函數從每頁中提取文本。

IronPDF庫提供了哪些功能供Node.js使用?

IronPDF for Node.js提供了一系列功能,包括HTML到PDF轉換、文本和圖像操作、PDF合並和拆分、加密、數字簽名和表單處理。

我如何確保Node.js中的PDF文件的安全性?

IronPDF提供了全面的安全功能,例如數字簽名、加密和密碼保護,以確保Node.js應用程序中的PDF文件的安全。

選擇Node.js的PDF庫時我應考慮什麼?

選擇Node.js的PDF庫時,請考慮與不同瀏覽器的兼容性、安全選項、易用性、全面的文檔以及許可靈活性。IronPDF提供這些功能,使其成為開發者的強大選擇。

IronPDF在Node.js中有哪些許可選項?

IronPDF提供各種許可選項,包括免費的開發者許可、永久許可以及一年的軟件維護。他們還提供帶有水印版本的試用期,滿足不同開發者的需求。

在Node.js中可以操控PDF中的圖像嗎?

是的,使用IronPDF,您可以在Node.js應用程序中操控PDF中的圖像,這包括添加、提取或修改嵌入在PDF文檔中的圖像。

Darrius Serrant
全棧軟件工程師 (WebOps)

Darrius Serrant 擁有邁阿密大學計算機科學學士學位,目前任職於 Iron Software 的全栈 WebOps 市場營銷工程師。從小就迷上編碼,他認為計算既神秘又可接近,是創意和解決問題的完美媒介。

在 Iron Software,Darrius 喜歡創造新事物,並簡化複雜概念以便於理解。作為我們的駐場開發者之一,他也自願教學生,分享他的專業知識給下一代。

對 Darrius 來說,工作令人滿意因為它被重視且有實際影響。