使用 IRONPDF FOR NODE.JS

如何在 Node.js 中從 PDF 提取圖像

從 PDF 中提取圖像對於許多開發人員來說是一項常見任務,無論是用於文件處理、數據提取,還是創建文件預覽。 在本文中,我們將探討如何使用IronPDF(一個強大的 PDF 庫,可用於 .NET)從 PDF 中提取和保存影像,以及如何通過其 NPM 套件將其整合到 Node.js 環境中。

如何使用IronPDF Node.js從PDF文件中提取圖像

  1. 設置 Node.js 應用程式。

  2. 安裝 IronPDF 的 NPM 套件。

  3. 準備 PDF 以進行提取。

  4. 從 PDF 文件中提取圖像並保存。

先決條件

如果你还没有安装 Node.js,请从 https://nodejs.org/ 下载并安装。

介紹 IronPDF NPM 套件

IronPDF NPM 套件是 IronPDF 函式庫的 Node.js 包裝器,最初是為 .NET 環境設計的。 它允許開發人員在 Node.js 應用程式中利用 IronPDF 強大的 PDF 操作功能。 此軟體包特別適合處理 PDF 文件,提供了在許多現實應用中有用的多種功能,例如文件處理、報告生成等。

IronPDF 在 Node.js 的主要功能

  1. PDF創建

    IronPDF可以從多種來源創建PDF,包括HTML內容、圖像甚至是純文本。 此功能對於需要以 PDF 格式生成報告、發票或其他文件的網絡應用程序非常有用。

    IronPDF 支援樣式和格式化 HTML 內容,是將網頁轉換為結構良好的 PDF 文件的絕佳選擇。

  2. PDF 編輯

    IronPDF 讓您能夠通過添加文本、圖像或註釋來操作現有的 PDF,並修改佈局。 您還可以將多個 PDF 合併為一個,將大型文件拆分為較小的部分,甚至可以重新排列 PDF 內的頁面。

    這些功能使其成為需要動態修改 PDF 的應用程式的理想選擇,例如文件管理系統或需要自動化文件生成的應用程式。

  3. PDF 轉換

    IronPDF 的一個突出功能是其將 PDF 轉換為其他各種格式的能力。 例如,它可以將 PDF 文件轉換為圖像(PNG、JPEG)、HTML 和 Word 格式。

    此功能在您需要以不同格式呈現 PDF 的內容或為使用者介面創建 PDF 的圖片預覽時特別有用。

  4. 提取文字和圖片

    雖然 IronPDF 沒有直接的 REST API 來從 PDF 提取原始圖片,但它確實提供了一種將 PDF 頁面渲染為圖片(例如 PNG 或 JPEG)的方法,這可以作為提取內容的一種間接方式。

    您可以將 PDF 的每頁渲染成圖像,有效地捕捉文檔的視覺表現,並保存以供進一步使用或展示。

  5. 將頁面渲染為圖片

    IronPDF 可以將 PDF 頁面轉換為高品質圖像。 例如,您可以將多頁 PDF 轉換為一系列 PNG,每頁一個。 當您需要將頁面顯示為縮圖或以圖像格式顯示時,這特別有用。 它支持各種圖像格式類型。

  6. 安全和加密

    IronPDF 支援處理加密的 PDF。 它允許您開啟、解密及操作受保護的文件,這對於需要密碼或其他形式保護的文件處理至關重要。

  7. 跨平台相容性

    IronPDF 兼容 Windows 和 Linux 環境,使其成為用於伺服器端應用程式的多功能工具。 Node.js 包裝器簡化了將 IronPDF 整合到基於 Node.js 的應用程式中的過程。

步驟 1:設置 Node.js 應用程序

首先,在本地設備上創建一個資料夾,然後開啟 Visual Studio Code,以設置 Node.js 專案資料夾。

mkdir PdfImageExtractor
cd PdfImageExtractor
code .
mkdir PdfImageExtractor
cd PdfImageExtractor
code .
SHELL

步驟 2:安裝 IronPDF 的 NPM 套件

在 Windows 或 Linux 機器上安裝 IronPDF Node.js 套件及其支援套件。

npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64
npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64
SHELL

套件@ironsoftware/ironpdf-engine-windows-x64是IronPDF庫的針對特定平台的版本,專為Windows 64位系統設計。

適用於 Windows 的平台專用二進位檔案 (64 位元)

IronPDF 庫具有平台特定的依賴項。 要使 Node.js 與 IronPDF 高效運作,需要為特定作業系統和架構量身定制的原生二進位文件。 在這種情況下,@ironsoftware/ironpdf-engine-windows-x64 套件提供Windows 64位元環境的原生引擎。

2. 優化性能

通過使用這個特定於 Windows 的套件,您可以確保 IronPDF 庫在基於 Windows 的系統上最佳運行。 它確保所有本機相依性,例如與 PDF 呈現和操作相關的相依性,均能夠在您的機器上兼容並順利運行。

3. 簡化安裝

與其手動管理和配置 Windows 64 位系統所需的二進制文件,安裝 @ironsoftware/ironpdf-engine-windows-x64 套件可以自動化此過程。 這樣可以節省時間並消除潛在的相容性問題。

4. 跨平台相容性

IronPDF 也支持其他平台,例如 macOS 和 Linux。 提供特定平臺的套件,讓開發者能夠為他們的操作系統使用正確的二進位檔,從而提高整體穩定性和庫的可靠性。

5. 某些功能需要

如果您正在使用某些IronPDF功能(如將PDF渲染為圖像或進行複雜的文檔操作),則需要使用本機引擎。 @ironsoftware/ironpdf-engine-windows-x64 軟體包專為基於 Windows 的環境內含此引擎。

步驟 3:準備一個 PDF 以進行提取

現在取得需要提取的 PDF 檔案。 複製用於應用程式的路徑。 本文使用以下檔案。

如何在 Node.js 中從 PDF 提取圖像:圖 1 - 範例檔案

步驟 4:從 PDF 文件中提取圖像並儲存

現在使用上述步驟中的檔案,並在 Node.js 專案資料夾中的 app.js 檔案寫下以下程式碼片段。

const fs = require('fs');
const { IronPdfGlobalConfig, PdfDocument } = require('@ironsoftware/ironpdf')
// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";
 (async () => {
    // Extracting Image and Text content from Pdf Documents
    // Import existing PDF document
    const pdf = await PdfDocument.fromFile("ironPDF.pdf");
    // Get all text to put in a search index and log it
    const text = await pdf.extractText();
    console.log('All Text:'+text);
    // Get all Images
    const imagesBuffer = await pdf.extractRawImages();
    console.log('images count:'+imagesBuffer.length);
    fs.writeFileSync("./file1.jpg", imagesBuffer[0]);
   // this code can also be in rest api
})();
var msg = 'Complete!';
console.log(msg); //log complete in console
js
JAVASCRIPT

運行應用程式:

node app.js
node app.js
SHELL

程式碼說明

此代碼片段示例演示瞭如何在 Node.js 中使用 IronPDF 程式庫從 PDF 文檔中提取文本和圖像(JPG 格式)。

  1. 授權設置:IronPdfGlobalConfig 用於設置IronPDF的授權金鑰,這是使用該庫功能所必需的。

  2. PDF 載入:代碼使用 PdfDocument.fromFile() 方法載入 PDF 文件 (ironPDF.pdf)。 這允許程序處理 PDF 的內容。

  3. 文字擷取:extractText() 方法用於從載入的 PDF 中擷取所有文字。 此文字可用於索引或搜尋文件的任務。

  4. 圖片提取:使用 extractRawImages() 方法從 PDF 中提取原始圖片。 這些影像以緩衝區的形式返回,可以儲存或進一步處理。

  5. 儲存圖像:提取出的圖像使用 Node 的 fs.writeFileSync() 方法,儲存為 JPG 文件到本地文件系統。

  6. 最終輸出:提取完成後,程式將列印出提取的文字和提取的圖片數量,然後保存第一張圖片。

    該代碼展示了如何使用 IronPDF 在 Node.js 環境中與 PDF 文件互動以提取內容並進行處理。

輸出

如何從 Node.js 中的 PDF 提取圖像:圖 2 - 控制台輸出

如何在 Node.js 中從 PDF 中提取圖像:圖 3 - 圖像輸出

許可證(提供試用)

IronPDF Node.js 需要授權金鑰才能運作。 開發人員可以使用他們的電子郵件 ID 從許可證頁面獲取試用許可證。 一旦您提供電子郵件 ID,金鑰將會送到該電子郵件,並可在應用程式中使用,如下所示。

const { IronPdfGlobalConfig} = require('@ironsoftware/ironpdf')
// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";
js
JAVASCRIPT

結論

在 Node.js 中使用 IronPDF 從 PDF 中提取圖像提供了一種強大且高效的方式來處理 PDF 內容。 雖然IronPDF不像一些專門工具那樣提供直接的圖像提取功能,但它允許您將PDF頁面渲染為圖像,這對於創建文檔的視覺表示非常有用。

該函式庫能夠以簡單易行的方式從 PDF 中提取文本和圖像,使其成為需要處理和操作 PDF 內容的應用程式中一個寶貴的工具。 與 Node.js 的整合使開發人員能夠輕鬆地將 PDF 提取納入網頁或伺服器端應用程式中。

總體而言,IronPDF 是一款功能強大的 PDF 操作解決方案,提供了將 PDF 轉換、儲存和提取圖像的靈活性,使其適用於文件索引、預覽生成和內容提取等各種使用情境。 然而,如果您的重點僅在於從 PDF 中提取嵌入圖像,探索其他庫可能會提供更專門的解決方案。

Darrius Serrant
全端軟體工程師(WebOps)

Darrius Serrant 擁有邁阿密大學的計算機科學學士學位,目前擔任 Iron Software 的全端 WebOps 行銷工程師。自幼對編程產生興趣,他認為計算機既神秘又易於接觸,使其成為創造力和解決問題的完美媒介。

在 Iron Software,Darrius 享受創造新事物並簡化複雜概念使其更易理解的過程。作為我們的其中一位常駐開發人員,他也自願教導學生,將他的專業知識傳授給下一代。

對 Darrius 來說,他的工作之所以令人滿足,是因為它受到重視並且產生了真正的影響。

下一個 >
如何在 Node.js 中編輯 PDF 文件

準備開始了嗎? 版本: 2025.5 剛剛發布

查看許可證 >