在生產環境中測試,無水印。
在任何需要的地方都能運行。
獲得 30 天的全功能產品。
在幾分鐘內上手運行。
試用產品期間完全訪問我們的支援工程團隊
在 Node.js 中進行 PDF 到文本的轉換是許多應用程式中的常見任務,尤其是在處理資料分析、內容管理系統或簡單的轉換工具時。 在 Node.js 環境和 IronPDF 函式庫的幫助下,開發人員可以輕鬆將 PDF 文件轉換為可用的文字資料。 本教程旨在指導初學者通過設置 Node.js 項目來使用 IronPDF 從 PDF 頁面文件中提取文本,重點關注安裝詳情、PDF 解析實作、錯誤處理和實際應用等關鍵方面。
在您的 IDE 中創建一個 Node.js 應用程式。
使用npm安裝 PDF 函式庫。
將 PDF 頁面載入應用程式。
使用 extractText 方法提取文字。
在開始這段旅程之前,確保您擁有以下物品:
為您的項目創建一個新的目錄並啟動一個 Node.js 應用程式:
mkdir pdf-to-text-node
cd pdf-to-text-node
npm init -y
mkdir pdf-to-text-node
cd pdf-to-text-node
npm init -y
使用 npm 安裝 IronPDF:
npm install ironpdf
npm install ironpdf
import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";
js
在第一步中,您需要匯入必要的模組。 PdfDocument 和 IronPdfGlobalConfig 從 @ironpdf/ironpdf 套件匯入,這對於處理 PDF 文件和配置 IronPDF 分別是必不可少的。 fs 模組是核心的 Node.js 模組,也用於處理檔案系統操作。
(async function createPDFs() {
// ...
})();
js
這裡定義了一個名為createPDFs的非同步匿名函數並立即調用。 此設置允許在函數中使用await,方便處理異步操作,這在處理文件 I/O 和 IronPDF 等外部庫時很常見。
const IronPdfConfig = {
licenseKey: "Your-License-Key",
};
IronPdfGlobalConfig.setConfig(IronPdfConfig);
js
在此步驟中,您將為 IronPDF 創建一個配置物件,包括授權密鑰,並使用 IronPdfGlobalConfig.setConfig 應用此配置。 這對啟用IronPDF的所有功能至關重要,特別是當您使用的是授權版本時。
const pdf = await PdfDocument.fromFile("report.pdf");
js
在這一步驟中,代碼正確地使用PdfDocument類的fromFile方法來載入現有的PDF文件。 這是一個非同步操作,因此使用await。 透過指定 PDF 文件的路徑(在此情況下為 "old-report.pdf"),pdf 變數成為您的 PDF 文件的表示,完全加載並準備好進行文字提取。 這個步驟很關鍵,因為這是解析 PDF 文件並為您希望執行的任何操作(如提取文本)做好準備的地方。
const text = await pdf.extractText();
js
此處對 pdf 對象調用了 extractText 方法。 這個非同步操作從加載的 PDF 文件中提取所有文本,將其存儲在 text 變數中。
const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);
js
在此步驟中,提取的文本將被處理以計算單詞的數量。 這是透過使用匹配一個或多個空白字元的正則表達式將文字字串分割成一個字元陣列來實現的,然後計算得到的陣列的長度。
fs.writeFileSync("extracted_text.txt", text);
js
這行更正的程式碼使用fs模組的writeFileSync方法,將提取的文字同步寫入檔案。
} catch (error) {
console.error("An error occurred:", error); //log error
}
js
最後,代碼包含一個try-catch塊以進行錯誤處理。 如果 try 區塊中的任何非同步操作失敗,catch 區塊將捕捉錯誤,並將訊息記錄到控制台。 這對於除錯和確保您的應用程序能夠優雅地處理意外問題來說非常重要。
以下是完整的程式碼,包含我們討論過的所有步驟,用於在 Node.js 環境中使用 IronPDF 從 PDF 文件中提取文本:
import { PdfDocument } from "@ironpdf/ironpdf";
import { IronPdfGlobalConfig } from "@ironpdf/ironpdf";
import fs from "fs";
(async function createPDFs() {
try {
// Input the license key
const IronPdfConfig = {
licenseKey: "Your-License-Key",
};
// Set the config with the license key
IronPdfGlobalConfig.setConfig(IronPdfConfig);
// Import existing PDF document
const pdf = await PdfDocument.fromFile("old-report.pdf");
// Get all text to put in a search index
const text = await pdf.extractText();
// Process the extracted text
// Example: Count words
const wordCount = text.split(/\s+/).length;
console.log("Word Count:", wordCount);
// Save the extracted text to a text file
fs.writeFileSync("extracted_text.txt", text);
console.log("Extracted text saved to extracted_text.txt");
} catch (error) {
// Handle errors here
console.error("An error occurred:", error);
}
})();
js
此腳本包含從 PDF 文件中提取文字所需的所有組件:使用許可證金鑰設置 IronPDF、加載 PDF 文件、提取文字、執行簡單的文字分析(在本例中為字數統計),並將提取的文字保存到文件中。程式碼包裝在異步函式中,以處理 Node.js 中檔案操作和 PDF 處理的異步特性。
一旦您執行了這個腳本,您最終將獲得兩個關鍵組成部分進行分析:原始 PDF 文件和包含提取文字的文字文件。 本節將引導您了解和評估腳本的輸出結果。
您選擇用於此過程的 PDF 文件,在本例中名為「old-report.pdf」,是起點。 PDF 文檔的複雜性和內容可以有很大的不同。 它們可能包含簡單明了的文本,或者可能充滿圖像、表格和多種文本格式。 您的 PDF 結構和複雜性將直接影響提取過程。
運行腳本後,將創建一個名為 "extracted_text.txt" 的新文本文件。 此文件包含從 PDF 文件提取的所有文本。
這是控制台上的輸出:
從 PDF 提取文本在資料挖掘和分析中特別有用。 無論是提取財務報告、研究論文或其他PDF文件,將PDF轉換為文本的能力對於數據分析任務至關重要。
在內容管理系統中,您經常需要處理各種檔案格式。 IronPDF 可以成為管理、存檔和檢索儲存為 PDF 格式內容的系統中的關鍵組件。
本綜合指南已引導您完成使用 IronPDF 設定 Node.js 專案以從 PDF 文件中提取文本的過程。 從處理基本的文字提取到深入更複雜的功能,例如文字對象提取和性能優化,您現在具備將高效的 PDF 文字提取實施在您的 Node.js 應用程式中的知識。
請記住,旅程不會在此結束。 PDF 處理和文本提取領域廣闊,還有許多功能和技術可供探索。 擁抱挑戰,繼續在這個令人興奮的軟體開發領域提升您的技能。
值得注意的是,IronPDF 提供用戶免費試用。 對於那些希望在專業環境中整合IronPDF的人,有多種授權選項可供選擇。