import {PdfDocument} from "@ironsoftware/ironpdf"; (async () => { // Create a PDF from an HTML string const pdf = await PdfDocument.fromHtml("<h1>Hello World</h1>"); // Export the PDF to a file await pdf.saveAs("output.pdf"); // Advanced Example with HTML Assets // Load external HTML assets: Images, CSS, and JavaScript. const htmlContentWithAssets = "<img src='icons/iron.png'>"; const advancedPdf = await PdfDocument.fromHtml(htmlContentWithAssets); // Save the PDF with loaded assets await advancedPdf.saveAs("html-with-assets.pdf"); })();

使用 IRONPDF FOR NODE.JS

如何在 Node.js 中解析 PDF 文件

Q: 我如何在Node.js中解析PDF？

要在Node.js中解析PDF，您可以利用IronPDF庫。首先通過 npm install @Iron Software/ironpdf 安裝IronPDF包。然後，使用 fromFile 方法加載PDF並使用 extractText 方法提取文本。

Q: 在Node.js中將HTML轉換為PDF的步驟是什麼？

您可以在Node.js中使用IronPDF將HTML轉換為PDF。對於HTML字符串使用 RenderHtmlAsPdf 方法，對於HTML文件使用 RenderHtmlFileAsPdf 方法以高效生成PDF。

Q: 如何在Node.js中從每頁PDF中提取文本？

使用IronPDF，您可以通過遍歷頁面從每頁PDF中提取文本。使用 getPageCount 方法確定頁數，然後使用 extractText 函數從每頁中提取文本。

Darrius Serrant

更新:2025年6月22日

本文將示範如何使用Node.js的IronPDF，PDF解析Node.js程式庫來解析PDF。

什麼是Node？

跨平台、開源的Node.js JavaScript運行環境允許JavaScript代碼在瀏覽器之外執行。程式設計師可以透過啟用伺服器端JavaScript或JS模組執行，來創建可擴展、快速和高效的網路應用程式。由於Node.js是事件驅動的非阻塞I/O模組，它非常適合開發能同時管理多個連接且具有互動性表單元素的即時應用程式。

Node.js常被用來創建各種應用程式，包括網頁伺服器、API、資料結構流應用程式、即時聊天應用程式、物聯網（IoT）設備等。總而言之，由於Node.js的高效性、速度以及在前端和後端的JavaScript相容性，使其成為完整開發堆疊的單一語言，因此受歡迎程度不斷上升。查看此解釋網站的文檔頁面以了解關於Node.js的更多資訊。

如何在Node.js中解析PDF文件

要解析可讀流的PDF，請下載Node.js包。
安裝IronPDF for Node.js程式庫。
創建一個新的PDF或匯入現有的解析後的文件數據。
使用extractText方法來提取每一行文字。
查看解析後的PDF內容以進行原始PDF閱讀。

IronPDF for Node.js

截至我最後的知識更新在2022年1月，IronPDF主要是一個.BNET程式庫，專為在.NET Framework內工作的需求而構建，使開發者可以使用C#或VB.NET操作PDF文件。然而，當時並沒有專門為Node.js設計的IronPDF版本。

隨著IronPDF的擴展來支持和包括Node.js的綁定，這可能意味著在Node.js應用程式中創建、編輯和處理PDF文檔的工具現在在IronPDF for Node.js中提供。

IronPDF功能

從HTML到PDF生成：將HTML內容轉換為PDF文檔的能力。
添加、改變或移除PDF文件中的文字、形狀、圖片和其他元素被稱為文字和圖片操作。
合併，從PDF文件中提取頁面，拆分PDF文件，以及加密和解密它們都是PDF文件修改的例子。
表單處理包括完成表單、獲取表單數據以及通過程式使用PDF表單。
PDF安全性是使用數位簽名、加密和密碼保護PDF文檔。
檢索和修改PDF文件被稱為頁面元數據處理。

如果IronPDF擴展其產品範圍以包括Node.js版本，這可能為開發Node.js應用程式的開發者提供使用IronPDF的PDF操作功能的一種方式。這對於習慣於在.NET環境中使用IronPDF相似功能的開發者可能是有幫助的。

關於IronPDF的功能、相容性和對Node.js的支持的最新和最全面的資訊，應該始終查看官方文檔、發佈說明或來自IronPDF團隊的更新。在這裡查看更多關於IronPDF和每次發佈中的新功能。要了解有關IronPDF的更多資訊，請參考這個官方文檔頁面。

套件要求

Visual Studio Code作為IDE
Node.js
可以使用Yarn或npm進行包管理，這對於包安裝是必需的。

安裝Node.js的IronPDF套件

啟動命令提示符或終端：打開命令提示符或終端。根據您的操作系統，有多種方式可以訪問它：

Windows: PowerShell或命令提示符
macOS上的終端
Linux上的終端

要安裝包，使用包名和npm install命令。例如，要安裝包@ironsoftware/ironpdf，在終端中運行以下命令：

npm install @ironsoftware/ironpdf

npm install @ironsoftware/ironpdf

SHELL

如果不同，請使用您想安裝的包名替換@ironsoftware/ironpdf。

如何在Node.js中解析PDF文件，圖1：安裝IronPDF 安裝IronPDF

解析PDF文件以提取數據

從實驗中，您可以看到IronPDF提供了很多功能來促進在Node.js中處理PDF。它專注於生成、查看以及修改任何所需格式的PDF文檔。 PDF文件相當容易解析。

const { PdfDocument } = require("@ironsoftware/ironpdf");

const pdfProcess = async () => {
  // Load the existing PDF document
  const pdf = await PdfDocument.fromFile("Demo.pdf");
  // Extract text data from the loaded PDF
  const data = await pdf.extractText();
  // Output the extracted text to the console
  console.log(data);
};

pdfProcess();

fromFile功能的重要性由上述代碼顯示。 fromFile方法讀取PDF文檔並將PDF文件轉換成PdfDocument對象，從現有文件系統中載入文件。因此，PdfDocument保存了PDF的元數據。用戶可以根據需要使用pdf對像中的文件元數據。該對像解析後的文檔數據是包含在PDF頁面對象中的文字和圖形。 extractText功能用於從提供的PDF文件中提取所有文本。之後，提取的文本被作為字符串存儲，並準備進行其他處理，例如創建JSON格式。

逐頁文字提取

以下是另一種方法的代碼，明確提取PDF文件每頁的文字。

const pdf = await PdfDocument.fromFile("Demo.pdf");
// Get the total number of pages in the PDF
const pageCount = await pdf.getPageCount();

// Loop through each page to extract text
for (let i = 0; i < pageCount; i++) {
  const pageText = await pdf.extractText(i);
  // Output the text of each page
  console.log(pageText);
}

該示例代碼從指定目錄中載入記憶體中的PDF進行原始PDF閱讀，然後創建一個名為pdf。 PDF文檔是由若干基本數據對象類型組成的數據結構。PDF文件中的每一頁數據都通過其頁碼或頁索引檢索PDF對象，以保證一個接一個地處理。首先，我們使用其PDF對象的getPageCount方法來查找提供的PDF總頁數。

extractText函數從每個PDF頁面檢索文本。提取的文本可以顯示在用戶螢幕上或保存在字符串變數中。此技術使能夠有組織地從單個PDF頁面中提取文本。這些技術展示了IronPDF，一個專門用於PDF任務的Node.js庫，如何輕鬆而徹底地從PDF文件中提取文本。這種可訪問性增強了PDF在各種上下文中的實用性並具有多種實際應用。

如何在Node.js中解析PDF文件，圖2：逐頁閱讀PDF 逐頁閱讀PDF