用 C# 閱讀 PDF 檔案
提取文字和圖像可以方便從一種文件格式過渡到另一種文件格式時進行資料遷移。 提取的內容可以以更易於存取和編輯的格式保存,從而降低資料遺失的風險。
可以獨立於 PDF 文件提取嵌入的圖像和文字。 提取的文字將以普通字串的形式保存,而提取的圖像將以圖像緩衝區格式保存,然後可以匯出或進一步處理。
使用extractText方法從 PDF 文件中提取文本,使用extractRawImages方法從 PDF 文件中提取圖像。
以下是一個經過修正和註釋的範例,展示如何實現此功能:
在上面的 C# 程式碼中:
- 我們使用 IronPDF 庫來載入 PDF 文件。
ExtractText()方法從 PDF 檢索文字。 這段文字會輸出到控制台。ExtractImages()方法用於提取圖像,圖像儲存在位元組數組中。 然後,每張圖片都會以指定的檔案名稱儲存到檔案系統中。
有關如何使用這些方法的更詳細說明,請造訪IronPDF 文件。




