在 C# 中讀取 PDF 文件

提取文字和圖像可以方便從一種文件格式過渡到另一種文件格式時進行資料遷移。 提取的內容可以以更易於存取和編輯的格式保存,從而降低資料遺失的風險。

可以獨立於 PDF 文件提取嵌入的圖像和文字。 提取的文字將以普通字串的形式保存,而提取的圖像將以圖像緩衝區格式保存,然後可以匯出或進一步處理。

使用 extractText 方法從 PDF 文件中提取文本,使用 extractRawImages 方法從 PDF 文件中提取圖像。

以下是一個經過修正和註釋的範例,展示如何實現此功能:

在上面的 C# 程式碼中:

  • 我們使用IronPDF庫來載入 PDF 文件。
  • 呼叫 ExtractText() 方法從 PDF 檢索文字。 這段文字會輸出到控制台。
  • ExtractImages() 方法用於提取儲存在位元組數組中的圖像。 然後,每張圖片都會以指定的檔案名稱儲存到檔案系統中。

有關如何使用這些方法的更詳細說明,請造訪IronPDF文件

使用IronPDF探索更多關於閱讀 PDF 文字的信息

準備好開始了嗎?
版本: 2026.3 剛剛發布
Still Scrolling Icon

還在捲動嗎?

想要快速證明?
執行範例 觀看您的 HTML 變成 PDF。