在C#中讀取PDF檔案

IronPDF C# PDF library 中的 PdfDocument.ExtractAllText 方法非常適合進行基礎的 PDF 文字讀取任務。 此方法能夠無問題地處理源 PDF 文件中的空白和編碼差異。

PdfDocument.ExtractTextFromPage 從 PDF 的特定頁面讀取文本。 在上述示例中,我們看到它被迭代地用於從特定範圍的頁面中檢索文本內容。

IronPDF 也可以從 PDF 中提取原始圖像。 為此,使用以下PdfDocument類別中的任何一種方法:

  • ExtractAllImages:將PDF中嵌入的所有圖像作為IronSoftware.Drawing.AnyBitmap對象返回。
  • ExtractAllRawImages:將所有嵌入的影像以原始位元組清單(byte [])的形式擷取。
  • ExtractImagesFromPage:提取索引頁面中的圖片。
  • ExtractImagesFromPages:與ExtractImagesFromPage相同,但從特定的頁面範圍或單獨頁面的列表中提取圖像。
  • ExtractRawImagesFromPageExtractRawImagesFromPages:與前兩個方法的工作方式相同,但返回提取的圖像為位元組陣列而非 IronSoftware.Drawing.AnyBitmap 對象。