跳過到頁腳內容
使用 IRONPDF FOR NODE.JS

如何在 Node.js 中從 PDF 中提取圖像

如何使用IronPDF Node.js從PDF文件中提取圖片

  1. 設置Node.js應用程式。
  2. 安裝IronPDF NPM套件。
  3. 準備要提取的PDF。
  4. 從PDF文件中提取圖片並保存。

先決條件

如果您尚未安裝Node.js,請從https://nodejs.org/下載並安裝。

介紹IronPDF NPM套件

IronPDF NPM套件是為IronPDF程式庫設計的Node.js包裝器,最初用於.NET環境。 它允許開發者在Node.js應用程式中利用IronPDF強大的PDF操作功能。 此套件特別適用於處理內容豐富的文件,提供一系列功能,可用於文件處理、報表生成等實際應用。

Node.js中IronPDF的關鍵特性

  1. PDF創建:

    IronPDF可以從各種來源生成PDF,包括HTML內容、圖片或純文本。 這一功能對需要生成報告、發票或其他PDF格式文件的網絡應用程式非常有用。

    IronPDF支持樣式和格式化HTML內容,是將網頁轉換為結構良好的PDF文件的理想選擇。

  2. PDF編輯:

    IronPDF允許您通過添加文本、圖片、註釋和修改佈局來操作現有PDF。 您還可以將多個PDF合併為一個,將大文件拆分成小部分,或者重新排序PDF中的頁面。

    這些特性使其成為需要動態修改PDF的應用程式的理想選擇,如文件管理系統或需要自動生成文件的應用程式。

  3. PDF轉換:

    IronPDF的一大特色是能夠將PDF轉換成其他格式。 例如,它可以將PDF文件轉換為圖片(PNG、JPEG)、HTML和Word格式。

    此功能特別適用於需要以不同格式展示PDF內容或為用戶界面創建PDF圖片預覽時。

  4. 提取文本和圖片:

    雖然IronPDF沒有直接提取PDF原始圖片的REST API,但它提供了一種將PDF頁面呈現為圖片(如PNG或JPEG)的方法,可以作為間接提取內容的方式。

    您可以將PDF的每一頁渲染為一幅圖像,從而有效捕獲文檔的視覺表示,並保存以供進一步使用或顯示。

  5. 將頁面渲染為圖片:

    IronPDF可以將PDF頁面轉換為高質量的圖片。 例如,您可以將多頁PDF轉換為一系列PNG,每頁一個。 這種方法特別適用於需要以縮略圖或基於圖像的格式顯示頁面時。 它支持各種圖像格式類型。

  6. 安全性和加密:

    IronPDF支持處理加密的PDF。 它允許您打開、解密和處理已加密的文檔,這對於需要密碼或其他保護形式的文檔非常重要。

  7. 跨平台兼容性:

    IronPDF與Windows和Linux環境兼容,使其成為服務器端應用程式的多功能工具。 Node.js的包裝器簡化了將IronPDF整合到基於Node.js應用程式中的過程。

步驟1:設置Node.js應用程式

首先,在本地計算機上創建資料夾並打開Visual Studio Code來設置Node.js項目資料夾。

mkdir PdfImageExtractor
cd PdfImageExtractor
code .
mkdir PdfImageExtractor
cd PdfImageExtractor
code .
SHELL

步驟2:安裝IronPDF NPM套件

安裝IronPDF Node.js套件及其支持套件,根據是Windows還是Linux機器進行安裝

npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64
npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64
SHELL

套件@ironsoftware/ironpdf-engine-windows-x64是專門為Windows 64位系統設計的IronPDF程式庫的特定平台版本。

1. 專為Windows(64位)設計的平台二進制

IronPDF程式庫有平臺特定的依賴關係。 為了讓Node.js有效地與IronPDF配合工作,它需要為特定操作系統和架構量身定制的本機二進制。 在這種情況下,@ironsoftware/ironpdf-engine-windows-x64套件為Windows 64位環境提供本機引擎。

2. 優化性能

通過使用此Windows專用套件,您可以確保IronPDF程式庫在基於Windows的系統上最佳運行。 它確保所有本機依賴關係,例如PDF渲染和操控相關的依賴關係,在您的機器上兼容並順利運行。

3. 簡化安裝

不再需要手動管理和配置Windows 64位系統所需的二進制文件,安裝@ironsoftware/ironpdf-engine-windows-x64套件可自動化此過程。 這樣可以省時並消除潛在的兼容性問題。

4. 跨平台兼容性

IronPDF還支持macOS和Linux等其他平台。 提供平臺特定的套件,讓開發者能夠根據操作系統使用正確的二進制,從而提高程式庫的整體穩定性和可靠性。

5. 某些功能所需

如果您在使用一些IronPDF功能(如將PDF渲染為圖像或執行複雜的文件操作),則需要本機引擎。 @ironsoftware/ironpdf-engine-windows-x64套件專為基於Windows的環境提供此引擎。

步驟3:準備要提取的PDF

現在拿到需要提取的PDF文件。 複製應用程式中要使用的路徑。 本文使用如下文件。

How to Extract Images From PDF in Node.js: Figure 1 - Sample File

步驟4:從PDF文件中提取圖片並保存

現在用上一步的文件,並在Node.js項目資料夾中寫入以下代碼片段到app.js文件中。

const fs = require('fs');
const { IronPdfGlobalConfig, PdfDocument } = require('@ironsoftware/ironpdf')

// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";

(async () => {
    // Extracting Image and Text content from Pdf Documents

    // Import existing PDF document
    const pdf = await PdfDocument.fromFile("ironPDF.pdf");

    // Get all text to put in a search index and log it
    const text = await pdf.extractText();
    console.log('All Text: ' + text);

    // Get all Images as buffers
    const imagesBuffer = await pdf.extractRawImages();
    console.log('Images count: ' + imagesBuffer.length);

    // Save the first extracted image to the local file system
    fs.writeFileSync("./file1.jpg", imagesBuffer[0]);

    // Indicate completion
    console.log('Complete!');
})();

運行應用程式:

node app.js
node app.js
SHELL

代碼解釋

此代碼片段示例展示了如何在Node.js中使用IronPDF程式庫從PDF文件中提取文本和圖片(JPG格式)。

  1. 授權設置:IronPdfGlobalConfig用來設置IronPDF的授權金鑰,這是使用程式庫功能所需的。

  2. PDF加載:代碼使用ironPDF.pdf加載PDF文件。 這允許程序處理PDF的內容。

  3. 文字提取:使用extractText()方法從加載的PDF中提取所有文本。 這些文本可以用於索引或者查找文檔中的文本。

  4. 圖片提取:使用extractRawImages()方法從PDF中提取原始圖片。 這些圖片以緩衝區的形式返回,可以進一步保存或處理。

  5. 保存圖片:通過Node的fs.writeFileSync()方法將提取的圖片保存到本地文件系統作為JPG文件。

  6. 最終輸出:提取完成後,程序會打印出提取的文本、提取的圖片數量,以及保存的第一張圖片。

該代碼為在Node.js環境中如何與PDF文件進行交互以提取和處理內容提供了示範。

輸出

How to Extract Images From PDF in Node.js: Figure 2 - Console Output

How to Extract Images From PDF in Node.js: Figure 3 - Image Output

授權(試用版可用)

IronPDF Node.js需要授權金鑰才能運行。 開發者可以使用其電子郵件ID從授權頁面獲得試用授權。 一旦您提供電子郵件ID,金鑰將被發送到電子郵件中,可以按下面的方式使用於應用程式中。

const { IronPdfGlobalConfig } = require('@ironsoftware/ironpdf')

// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";

結論

在Node.js中使用IronPDF從PDF中提取圖片,提供了一種處理PDF內容的強大而高效的方式。 雖然IronPDF不像一些專門的工具那樣提供直接的圖片提取功能,但它允許您將PDF頁面渲染為圖片,這對於創建文件的視覺表示非常有用。

該程式庫能以簡單的方式從PDF中提取文本和圖片,這使它成為需要處理或操作PDF內容的應用程式的寶貴工具。 其與Node.js的結合使開發者可以輕鬆地將PDF提取整合到網絡或服務器端應用程式中。

總的來說,IronPDF是PDF處理的強大解決方案,提供將PDF轉換、保存和提取圖片的靈活性,適合於文件索引、生成預覽和內容提取等廣泛的使用案例。 然而,如果您的重點只是從PDF中提取嵌入的圖片,探索其他更多專門的庫可能會提供更合適的解決方案。

常見問題解答

如何使用 Node.js 從 PDF 文件中擷取圖像?

您可以在 Node.js 中使用 IronPDF 將 PDF 頁面渲染為可以保存的圖像文件。這涉及設置 Node.js 專案、安裝 IronPDF 並使用其方法將 PDF 頁面轉換成圖像格式。

設置 IronPDF 以在 Node.js 中進行圖像提取涉及哪些步驟?

要在 Node.js 中設置 IronPDF 進行圖像提取,您需要創建一個 Node.js 專案,安裝 IronPDF NPM 套件,然後使用 IronPDF 的功能加載 PDF 文件並將其頁面渲染為圖像。

IronPDF 能直接從 PDF 在 Node.js 中提取圖像嗎?

IronPDF 不能直接提取圖像,但可以將 PDF 頁面渲染為圖像。這些渲染的圖像可以保存,有效地讓您從 PDF 中提取圖像內容。

在 Node.js 環境中使用 IronPDF 的先決條件是什麼?

先決條件包括安裝 Node.js,設置專案目錄,以及安裝 IronPDF NPM 套件,並安裝任何特定於平臺的套件,例如 Windows 64 位版本以獲得最佳性能。

如何使用 IronPDF 在 Node.js 中處理 PDF 操作任務?

IronPDF 允許您執行創建、編輯、轉換和從 PDF 中擷取內容等任務。您可以使用 IronPDF 方法加載 PDF 並根據需要進行操作。

在 Node.js 中操作 PDF 使用 IronPDF 是否需要許可?

是的,需要許可才能訪問 IronPDF 的所有功能。您可以通過註冊電子郵件在 IronPDF 網站上獲取試用許可。

在 Node.js 中直接從 PDF 中提取圖像可能需要哪些附加庫?

雖然 IronPDF 可以將頁面渲染為圖像,但直接圖像提取可能需要考慮使用專門提取嵌入圖像的附加庫。

IronPDF 為何是處理 Node.js 應用中 PDF 操作的一個強大選擇?

IronPDF 以其穩健性、與 Node.js 的易集成性,以及用於 PDF 創建、編輯和內容擷取的全面功能,使其適合用於 Web 和文件處理應用。

Darrius Serrant
全棧軟件工程師 (WebOps)

Darrius Serrant 擁有邁阿密大學計算機科學學士學位,目前任職於 Iron Software 的全栈 WebOps 市場營銷工程師。從小就迷上編碼,他認為計算既神秘又可接近,是創意和解決問題的完美媒介。

在 Iron Software,Darrius 喜歡創造新事物,並簡化複雜概念以便於理解。作為我們的駐場開發者之一,他也自願教學生,分享他的專業知識給下一代。

對 Darrius 來說,工作令人滿意因為它被重視且有實際影響。

Iron Support Team

We're online 24 hours, 5 days a week.
Chat
Email
Call Me