在 C# 中讀取 PDF 檔案
在將文件格式轉換為另一種格式時,擷取文字和圖片有助於進行資料遷移。 擷取的內容可儲存於更易於存取與編輯的格式中,從而降低資料遺失的風險。
嵌入的圖片與文字可獨立於 PDF 文件進行擷取。 擷取的文字將以一般字串形式呈現,而擷取的圖片則以影像緩衝區格式儲存,之後可進行匯出或進一步處理。
請使用 extractText 方法從 PDF 文件中提取文字,並使用 extractRawImages 方法提取圖片。
以下是一個經過修正並附有註解的範例,供您參考:
在上述 C# 程式碼中:
- 我們使用 IronPDF 函式庫來載入 PDF 文件。
- 透過
ExtractText()方法從 PDF 中擷取文字。 此文字將輸出至控制台。 ExtractImages()方法用於擷取圖片,這些圖片儲存於位元組陣列中。 隨後,每張圖片都會以指定的檔案名稱儲存至檔案系統中。
如需這些方法的詳細使用說明,請參閱 IronPDF 文件。




