在C#中讀取PDF檔案

IronPDF C# PDF 程式庫中的 PdfDocument.ExtractAllText 方法非常適合進行基本的 PDF 文字閱讀任務。此方法能夠處理來源 PDF 文件內的空白和編碼不一致問題而不會有任何問題。

PdfDocument.ExtractTextFromPage 用於讀取 PDF 的特定頁面的文字。在上述範例中,我們看到它被反覆使用以從特定頁面範圍中檢索文字內容。

IronPDF 還可以從 PDF 中提取原始圖片。為此,請使用 PdfDocument 類中的以下任一方法:

  • ExtractAllImages: 將 PDF 中嵌入的所有圖片作為 IronSoftware.Drawing.AnyBitmap 對象返回。
  • ExtractAllRawImages: 將所有嵌入的圖片作為原始位元組列表檢索。 (`位元組 []).
  • ExtractImagesFromPage: 從索引頁面提取包含的圖像
  • ExtractImagesFromPages: 與 ExtractImagesFromPage 相同,但來自特定範圍內或個別頁面的圖像。
  • ExtractRawImagesFromPageExtractRawImagesFromPages: 與前兩種方法相同,但提取的圖像以位元組數組形式返回,而不是以 IronSoftware.Drawing.AnyBitmap 對象形式返回。