跳過到頁腳內容
使用 IRONPDF FOR NODE.JS

如何在 Node.js 中從 PDF 中提取圖像

如何使用 IronPDF Node.js 從 PDF 檔案中擷取影像

  1. 設定 Node.js 應用程式。
  2. 安裝 IronPDF NPM 套件。
  3. 準備一個用於提取的 PDF 檔案。
  4. 從 PDF 文件中提取圖像並保存。

先決條件

如果您尚未安裝 Node.js,請從以下連結下載並安裝:https://nodejs.org/

隆重介紹 IronPDF NPM 包

IronPDF NPM 套件是IronPDF庫的 Node.js 封裝,最初是為 .NET 環境設計的。 它允許開發人員在 Node.js 應用程式中利用 IronPDF 強大的 PDF 處理功能。 該軟體包對於處理 PDF 文件特別有用,它提供了一系列功能,可在許多實際應用中發揮作用,例如文件處理、報告生成等等。

Node.js 中 IronPDF 的主要特性

1.建立 PDF 檔案

IronPDF 可以從各種來源建立 PDF,包括 HTML 內容、圖像,甚至純文字。 此功能對於需要產生 PDF 格式的報告、發票或任何其他文件的 Web 應用程式非常有用。

IronPDF 支援對 HTML 內容進行樣式設定和格式化,因此是將網頁轉換為結構良好的 PDF 文件的絕佳選擇。

  1. PDF 編輯

    IronPDF 讓您可以透過新增文字、圖像、註釋和修改版面來操作現有的 PDF 檔案。 您還可以將多個 PDF 文件合併為一個,將大型文件拆分為較小的部分,甚至重新排列 PDF 文件中的頁面順序。

    這些特性使其成為需要動態修改 PDF 的應用程式的理想選擇,例如文件管理系統或需要自動產生文件的應用程式。

  2. PDF轉換

    IronPDF 的一個突出特點是能夠將 PDF 文件轉換為各種其他格式。 例如,它可以將 PDF 文件轉換為圖像(PNG、JPEG)、HTML 和 Word 格式。

    當您需要以不同格式呈現 PDF 內容或為使用者介面建立 PDF 影像預覽時,此功能尤其有用。

4.提取文字和圖像

雖然 IronPDF 沒有直接的 REST API 可以從 PDF 中提取原始圖像,但它提供了一種將 PDF 頁面渲染為圖像(例如 PNG 或 JPEG)的方法,這可以用作提取內容的間接方法。

您可以將 PDF 的每一頁渲染成影像,有效地捕捉文件的視覺表現形式,並將其儲存以供進一步使用或顯示。

5.將頁面渲染為影像

IronPDF 可以將 PDF 頁面轉換為高品質影像。 例如,您可以將多頁 PDF 文件轉換為一系列 PNG 文件,每頁對應一個 PNG 文件。 當您需要將頁面顯示為縮圖或圖像格式時,此功能尤其有用。 它支援多種圖像格式類型。

6.安全性和加密

IronPDF 支援處理加密 PDF 文件。 它允許您開啟、解密和操作受保護的文檔,這對於處理需要密碼或其他形式保護的文檔至關重要。

7.跨平台相容性

IronPDF 相容於 Windows 和 Linux 環境,使其成為伺服器端應用程式的多功能工具。 Node.js 封裝器簡化了將 IronPDF 整合到基於 Node.js 的應用程式中的過程。

步驟 1:設定 Node.js 應用程式

首先,在本機上建立一個資料夾,然後開啟 Visual Studio Code,以此來設定 Node.js 專案資料夾。

mkdir PdfImageExtractor
cd PdfImageExtractor
code .
mkdir PdfImageExtractor
cd PdfImageExtractor
code .
SHELL

步驟 2:安裝 IronPDF NPM 套件

在 Windows 或 Linux 機器上安裝 IronPDF Node.js 套件及其配套套件。

npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64
npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64
SHELL

@ironsoftware/ironpdf-engine-windows-x64軟體包是 IronPDF 庫的平台特定版本,專為 Windows 64 位元系統設計。

1.適用於 Windows(64 位元)的平台特定二進位文件

IronPDF庫具有平台特定的依賴項。 為了使 Node.js 能夠有效率地與 IronPDF 配合使用,它需要針對特定作業系統和架構量身定制的原生二進位檔案。 在這種情況下, @ironsoftware/ironpdf-engine-windows-x64軟體包為Windows 64 位元環境提供了原生引擎。

2.性能優化

使用此 Windows 專用軟體包,可確保IronPDF庫在基於 Windows 的系統上以最佳方式運作。 它確保所有原生依賴項(例如與 PDF 渲染和操作相關的依賴項)在您的電腦上相容並流暢運行。

3.簡化安裝

安裝@ironsoftware/ironpdf-engine-windows-x64軟體包可自動完成 Windows 64 位元系統所需的二進位管理和設定過程,而無需手動操作。 這樣可以節省時間,並消除潛在的相容性問題。

4.跨平台相容性

IronPDF 也支援 macOS 和 Linux 等其他平台。 提供特定於平台的軟體包,可以讓開發者使用適合其作業系統的正確二進位文件,從而提高庫的整體穩定性和可靠性。

5.某些功能所必需

如果您使用IronPDF 的某些功能(例如將 PDF 渲染為映像或執行複雜的文件操作),則需要使用原生引擎。 @ironsoftware/ironpdf-engine-windows-x64軟體包包含此引擎,專門用於基於 Windows 的環境。

步驟 3:準備用於提取的 PDF 文件

現在取得需要提取的PDF檔案。 複製應用程式中要使用的路徑。 本文使用了以下文件。

如何在Node.js中從PDF中提取圖像:圖1 - 範例文件

步驟 4:從 PDF 檔案中提取圖像並儲存

現在使用上一個步驟中的文件,並將以下程式碼片段寫入 Node.js 專案資料夾中的app.js檔案中。

const fs = require('fs');
const { IronPdfGlobalConfig, PdfDocument } = require('@ironsoftware/ironpdf')

// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";

(async () => {
    // Extracting Image and Text content from Pdf Documents

    // Import existing PDF document
    const pdf = await PdfDocument.fromFile("ironPDF.pdf");

    // Get all text to put in a search index and log it
    const text = await pdf.extractText();
    console.log('All Text: ' + text);

    // Get all Images as buffers
    const imagesBuffer = await pdf.extractRawImages();
    console.log('Images count: ' + imagesBuffer.length);

    // Save the first extracted image to the local file system
    fs.writeFileSync("./file1.jpg", imagesBuffer[0]);

    // Indicate completion
    console.log('Complete!');
})();

運行應用程式:

node app.js
node app.js
SHELL

程式碼解釋

此程式碼片段範例示範如何在 Node.js 中使用IronPDF庫從 PDF 文件中提取文字和圖像(JPG 格式)。

1.許可證設定IronPdfGlobalConfig用於設定IronPDF的許可證密鑰,這是使用該庫的功能所必需的。

  1. PDF 載入:程式碼使用PdfDocument.fromFile()方法載入 PDF 文件ironPDF.pdf 。 這樣程式就可以處理 PDF 的內容了。

3.文字擷取extractText()方法用於從載入的 PDF 中提取所有文字。 這段文字可用於諸如文件索引或搜尋之類的任務。

4.影像擷取extractRawImages()方法用於從 PDF 中擷取原始影像。 這些圖像以緩衝區的形式返回,可以保存或進一步處理。

5.儲存映像:擷取的映像使用 Node 的fs.writeFileSync()方法以 JPG 檔案的形式儲存到本機檔案系統。

6.最終輸出:擷取完成後,程式會列印出擷取的文字、擷取的影像數量,然後儲存第一張影像。

程式碼示範如何使用 IronPDF 與 PDF 文件進行交互,以提取內容並在 Node.js 環境中對其進行處理。

輸出

如何在Node.js中從PDF中提取圖像:圖2 - 控制台輸出

如何在Node.js中從PDF中提取圖像:圖3 - 圖像輸出

授權(可試用)

IronPDF Node.js 需要許可證金鑰才能運作。 開發者可以使用他們的電子郵件地址從許可證頁面取得試用許可證。 一旦您提供電子郵件地址,密鑰將發送到該電子郵件地址,即可在應用程式中按如下方式使用。

const { IronPdfGlobalConfig } = require('@ironsoftware/ironpdf')

// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";

結論

在 Node.js 中使用 IronPDF 從 PDF 中提取影像,可以提供一種強大且有效率的方式來處理 PDF 內容。 雖然 IronPDF 不像某些專業工具那樣提供直接的影像擷取功能,但它允許您將 PDF 頁面渲染為影像,這對於建立文件的視覺表示非常有用。

該庫能夠以直接的方式從 PDF 中提取文字和圖像,這使得它成為需要處理和操作 PDF 內容的應用程式的寶貴工具。 它與 Node.js 的整合使開發人員能夠輕鬆地將 PDF 提取功能整合到 Web 或伺服器端應用程式中。

總的來說,IronPDF 是一個功能強大的 PDF 處理解決方案,它提供了轉換、保存和從 PDF 中提取圖像的靈活性,使其適用於各種用例,例如文件索引、預覽生成和內容提取。 但是,如果您只專注於從 PDF 中提取嵌入圖像,那麼探索其他庫可能會提供更專業的解決方案。

常見問題解答

如何使用 Node.js 從 PDF 檔案中擷取影像?

您可以在 Node.js 中利用 IronPDF 將 PDF 頁面呈現為影像,並儲存為檔案。這包括設定 Node.js 專案、安裝 IronPDF,並使用其方法將 PDF 頁面轉換為影像格式。

在 Node.js 中设置 IronPDF 进行图像提取需要哪些步骤?

若要在 Node.js 中設定 IronPDF 進行影像擷取,您需要建立一個 Node.js 專案,安裝 IronPDF NPM 套件,然後使用 IronPDF 的功能載入 PDF 文件,並將其頁面渲染為影像。

IronPDF 可以在 Node.js 中直接從 PDF 中提取圖片嗎?

IronPDF 不能直接提取圖像,但可以將 PDF 頁面渲染為圖像。這些渲染的影像可以儲存,有效地讓您從 PDF 中擷取影像內容。

在 Node.js 環境中使用 IronPDF 的先決條件是什麼?

先決條件包括已安裝 Node.js、設定專案目錄、安裝 IronPDF NPM 套件,以及任何特定平台套件,例如 Windows 64 位元版本以獲得最佳效能。

如何使用 IronPDF 在 Node.js 中處理 PDF 操作任務?

IronPDF 可讓您在 Node.js 中執行 PDF 的建立、編輯、轉換和內容擷取等工作。您可以使用 IronPDF 方法載入 PDF,並根據需要進行操作。

在 Node.js 中使用 IronPDF 進行 PDF 操作是否需要授權?

是的,要使用 IronPDF 的全部功能,需要取得授權。您可以從 IronPDF 的網站以您的電子郵件註冊,取得試用授權。

在 Node.js 中直接從 PDF 擷取影像可能需要哪些額外的函式庫?

雖然 IronPDF 可以將頁面呈現為影像,但若要直接擷取影像,您可以考慮使用專門從 PDF 檔案中直接擷取內嵌影像的其他函式庫。

是什麼讓 IronPDF 成為在 Node.js 應用程式中處理 PDF 的有力選擇?

IronPDF 的穩健性、與 Node.js 整合的簡易性,以及 PDF 創建、編輯和內容擷取的全面功能,使其適用於網路和文件處理應用程式。

Darrius Serrant
全棧軟件工程師 (WebOps)

Darrius Serrant 擁有邁阿密大學計算機科學學士學位,目前任職於 Iron Software 的全栈 WebOps 市場營銷工程師。從小就迷上編碼,他認為計算既神秘又可接近,是創意和解決問題的完美媒介。

在 Iron Software,Darrius 喜歡創造新事物,並簡化複雜概念以便於理解。作為我們的駐場開發者之一,他也自願教學生,分享他的專業知識給下一代。

對 Darrius 來說,工作令人滿意因為它被重視且有實際影響。