在C#中讀取PDF檔案

PdfDocument.ExtractAllText 方法來自 IronPDF C# PDF 庫,非常適合用於普通 PDF 文本閱讀任務。 此方法能夠無問題地處理源 PDF 文件中的空白和編碼差異。

PdfDocument.ExtractTextFromPage 從 PDF 的特定頁面讀取文字。 在上述示例中,我們看到它被迭代地用於從特定範圍的頁面中檢索文本內容。

IronPDF 也可以從 PDF 中提取原始圖像。 要完成此操作,請使用下面 PdfDocument 類中的任一方法:

  • ExtractAllImages:返回 PDF 中嵌入的所有圖像作為 IronSoftware.Drawing.AnyBitmap 物件。

    • ExtractAllRawImages:取出所有內嵌圖像作為原始位元組列表。(`位元組[]).
  • ExtractImagesFromPage:提取索引頁面中包含的圖像。
  • ExtractImagesFromPages:與 ExtractImagesFromPage 相同,但是從特定的頁面範圍或一個頁面列表中提取圖像。
  • ExtractRawImagesFromPageExtractRawImagesFromPages:與前兩種方法相同,但返回提取的圖像為字節數組,而不是作為 IronSoftware.Drawing.AnyBitmap 對象。