在生產環境中測試,無水印。
在任何需要的地方都能運行。
獲得 30 天的全功能產品。
在幾分鐘內上手運行。
試用產品期間完全訪問我們的支援工程團隊
從 PDF 中提取圖像對於許多開發人員來說是一項常見任務,無論是用於文件處理、數據提取,還是創建文件預覽。 在本文中,我們將探討如何使用IronPDF(一個強大的 PDF 庫,可用於 .NET)從 PDF 中提取和保存影像,以及如何通過其 NPM 套件將其整合到 Node.js 環境中。
設置 Node.js 應用程式。
安裝 IronPDF 的 NPM 套件。
準備 PDF 以進行提取。
如果你还没有安装 Node.js,请从 https://nodejs.org/ 下载并安装。
IronPDF NPM 套件是 IronPDF 函式庫的 Node.js 包裝器,最初是為 .NET 環境設計的。 它允許開發人員在 Node.js 應用程式中利用 IronPDF 強大的 PDF 操作功能。 此軟體包特別適合處理 PDF 文件,提供了在許多現實應用中有用的多種功能,例如文件處理、報告生成等。
PDF創建:
IronPDF可以從多種來源創建PDF,包括HTML內容、圖像甚至是純文本。 此功能對於需要以 PDF 格式生成報告、發票或其他文件的網絡應用程序非常有用。
IronPDF 支援樣式和格式化 HTML 內容,是將網頁轉換為結構良好的 PDF 文件的絕佳選擇。
PDF 編輯:
IronPDF 讓您能夠通過添加文本、圖像或註釋來操作現有的 PDF,並修改佈局。 您還可以將多個 PDF 合併為一個,將大型文件拆分為較小的部分,甚至可以重新排列 PDF 內的頁面。
這些功能使其成為需要動態修改 PDF 的應用程式的理想選擇,例如文件管理系統或需要自動化文件生成的應用程式。
PDF 轉換:
IronPDF 的一個突出功能是其將 PDF 轉換為其他各種格式的能力。 例如,它可以將 PDF 文件轉換為圖像(PNG、JPEG)、HTML 和 Word 格式。
此功能在您需要以不同格式呈現 PDF 的內容或為使用者介面創建 PDF 的圖片預覽時特別有用。
提取文字和圖片:
雖然 IronPDF 沒有直接的 REST API 來從 PDF 提取原始圖片,但它確實提供了一種將 PDF 頁面渲染為圖片(例如 PNG 或 JPEG)的方法,這可以作為提取內容的一種間接方式。
您可以將 PDF 的每頁渲染成圖像,有效地捕捉文檔的視覺表現,並保存以供進一步使用或展示。
將頁面渲染為圖片:
IronPDF 可以將 PDF 頁面轉換為高品質圖像。 例如,您可以將多頁 PDF 轉換為一系列 PNG,每頁一個。 當您需要將頁面顯示為縮圖或以圖像格式顯示時,這特別有用。 它支持各種圖像格式類型。
安全和加密:
IronPDF 支援處理加密的 PDF。 它允許您開啟、解密及操作受保護的文件,這對於需要密碼或其他形式保護的文件處理至關重要。
跨平台相容性:
IronPDF 兼容 Windows 和 Linux 環境,使其成為用於伺服器端應用程式的多功能工具。 Node.js 包裝器簡化了將 IronPDF 整合到基於 Node.js 的應用程式中的過程。
首先,在本地設備上創建一個資料夾,然後開啟 Visual Studio Code,以設置 Node.js 專案資料夾。
mkdir PdfImageExtractor
cd PdfImageExtractor
code .
mkdir PdfImageExtractor
cd PdfImageExtractor
code .
在 Windows 或 Linux 機器上安裝 IronPDF Node.js 套件及其支援套件。
npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64
npm install @ironsoftware/ironpdf
npm install @ironsoftware/ironpdf-engine-windows-x64
套件@ironsoftware/ironpdf-engine-windows-x64
是IronPDF庫的針對特定平台的版本,專為Windows 64位系統設計。
IronPDF 庫具有平台特定的依賴項。 要使 Node.js 與 IronPDF 高效運作,需要為特定作業系統和架構量身定制的原生二進位文件。 在這種情況下,@ironsoftware/ironpdf-engine-windows-x64 套件提供Windows 64位元環境的原生引擎。
通過使用這個特定於 Windows 的套件,您可以確保 IronPDF 庫在基於 Windows 的系統上最佳運行。 它確保所有本機相依性,例如與 PDF 呈現和操作相關的相依性,均能夠在您的機器上兼容並順利運行。
與其手動管理和配置 Windows 64 位系統所需的二進制文件,安裝 @ironsoftware/ironpdf-engine-windows-x64 套件可以自動化此過程。 這樣可以節省時間並消除潛在的相容性問題。
IronPDF 也支持其他平台,例如 macOS 和 Linux。 提供特定平臺的套件,讓開發者能夠為他們的操作系統使用正確的二進位檔,從而提高整體穩定性和庫的可靠性。
如果您正在使用某些IronPDF功能(如將PDF渲染為圖像或進行複雜的文檔操作),則需要使用本機引擎。 @ironsoftware/ironpdf-engine-windows-x64 軟體包專為基於 Windows 的環境內含此引擎。
現在取得需要提取的 PDF 檔案。 複製用於應用程式的路徑。 本文使用以下檔案。
現在使用上述步驟中的檔案,並在 Node.js 專案資料夾中的 app.js 檔案寫下以下程式碼片段。
const fs = require('fs');
const { IronPdfGlobalConfig, PdfDocument } = require('@ironsoftware/ironpdf')
// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";
(async () => {
// Extracting Image and Text content from Pdf Documents
// Import existing PDF document
const pdf = await PdfDocument.fromFile("ironPDF.pdf");
// Get all text to put in a search index and log it
const text = await pdf.extractText();
console.log('All Text:'+text);
// Get all Images
const imagesBuffer = await pdf.extractRawImages();
console.log('images count:'+imagesBuffer.length);
fs.writeFileSync("./file1.jpg", imagesBuffer[0]);
// this code can also be in rest api
})();
var msg = 'Complete!';
console.log(msg); //log complete in console
js
運行應用程式:
node app.js
node app.js
此代碼片段示例演示瞭如何在 Node.js 中使用 IronPDF 程式庫從 PDF 文檔中提取文本和圖像(JPG 格式)。
授權設置:IronPdfGlobalConfig 用於設置IronPDF的授權金鑰,這是使用該庫功能所必需的。
PDF 載入:代碼使用 PdfDocument.fromFile() 方法載入 PDF 文件 (ironPDF.pdf)。 這允許程序處理 PDF 的內容。
文字擷取:extractText() 方法用於從載入的 PDF 中擷取所有文字。 此文字可用於索引或搜尋文件的任務。
圖片提取:使用 extractRawImages() 方法從 PDF 中提取原始圖片。 這些影像以緩衝區的形式返回,可以儲存或進一步處理。
儲存圖像:提取出的圖像使用 Node 的 fs.writeFileSync() 方法,儲存為 JPG 文件到本地文件系統。
最終輸出:提取完成後,程式將列印出提取的文字和提取的圖片數量,然後保存第一張圖片。
該代碼展示了如何使用 IronPDF 在 Node.js 環境中與 PDF 文件互動以提取內容並進行處理。
IronPDF Node.js 需要授權金鑰才能運作。 開發人員可以使用他們的電子郵件 ID 從許可證頁面獲取試用許可證。 一旦您提供電子郵件 ID,金鑰將會送到該電子郵件,並可在應用程式中使用,如下所示。
const { IronPdfGlobalConfig} = require('@ironsoftware/ironpdf')
// Apply your IronPDF license key
IronPdfGlobalConfig.getConfig().licenseKey = "Your license key";
js
在 Node.js 中使用 IronPDF 從 PDF 中提取圖像提供了一種強大且高效的方式來處理 PDF 內容。 雖然IronPDF不像一些專門工具那樣提供直接的圖像提取功能,但它允許您將PDF頁面渲染為圖像,這對於創建文檔的視覺表示非常有用。
該函式庫能夠以簡單易行的方式從 PDF 中提取文本和圖像,使其成為需要處理和操作 PDF 內容的應用程式中一個寶貴的工具。 與 Node.js 的整合使開發人員能夠輕鬆地將 PDF 提取納入網頁或伺服器端應用程式中。
總體而言,IronPDF 是一款功能強大的 PDF 操作解決方案,提供了將 PDF 轉換、儲存和提取圖像的靈活性,使其適用於文件索引、預覽生成和內容提取等各種使用情境。 然而,如果您的重點僅在於從 PDF 中提取嵌入圖像,探索其他庫可能會提供更專門的解決方案。