在 C# 中讀取 PDF 檔案

import {PdfDocument} from "@ironsoftware/ironpdf";

(async () => {
    // Extracting Image and Text content from Pdf Documents
    // Import existing PDF document
    const pdf = await PdfDocument.fromHtml("old_report.pdf");
    
    // Get all text to put in a search index
    const text = await pdf.extractText();
    
    // Get all Images
    const imagesBuffer = await pdf.extractRawImages();
    
    const pageCount = await pdf.getPageCount()
    // Or even find the precise text and images for each page in the document
    for (let index = 0; index < pageCount; index++) {
        text = await pdf.extractText([index]);
        imagesBuffer = await pdf.extractRawImages([index]);
    }
})();

在 C# 中讀取 PDF 檔案

在將文件格式轉換為另一種格式時，擷取文字和圖片有助於進行資料遷移。擷取的內容可儲存於更易於存取與編輯的格式中，從而降低資料遺失的風險。

嵌入的圖片與文字可獨立於 PDF 文件進行擷取。擷取的文字將以一般字串形式呈現，而擷取的圖片則以影像緩衝區格式儲存，之後可進行匯出或進一步處理。

請使用 extractText 方法從 PDF 文件中提取文字，並使用 extractRawImages 方法提取圖片。

以下是一個經過修正並附有註解的範例，供您參考：

在上述 C# 程式碼中：

我們使用 IronPDF 函式庫來載入 PDF 文件。
透過 ExtractText() 方法從 PDF 中擷取文字。此文字將輸出至控制台。
ExtractImages() 方法用於擷取圖片，這些圖片儲存於位元組陣列中。隨後，每張圖片都會以指定的檔案名稱儲存至檔案系統中。

如需這些方法的詳細使用說明，請參閱 IronPDF 文件。

進一步了解如何使用 IronPDF 讀取 PDF 文字

準備開始了嗎？

版本： 2026.5 just released

還在捲動嗎？

想要快速證明？
執行範例觀看您的 HTML 變成 PDF。

鋼鐵支援團隊

我們每週 5 天，每天 24 小時在線上。

聊天

電子郵件

打電話給我