在C#中讀取PDF檔案
IronPDF C# PDF library 中的 PdfDocument.ExtractAllText
方法非常適合進行基礎的 PDF 文字讀取任務。 此方法能夠無問題地處理源 PDF 文件中的空白和編碼差異。
PdfDocument.ExtractTextFromPage
從 PDF 的特定頁面讀取文本。 在上述示例中,我們看到它被迭代地用於從特定範圍的頁面中檢索文本內容。
IronPDF 也可以從 PDF 中提取原始圖像。 為此,使用以下PdfDocument
類別中的任何一種方法:
ExtractAllImages
:將PDF中嵌入的所有圖像作為IronSoftware.Drawing.AnyBitmap
對象返回。ExtractAllRawImages
:將所有嵌入的影像以原始位元組清單(byte []
)的形式擷取。ExtractImagesFromPage
:提取索引頁面中的圖片。ExtractImagesFromPages
:與ExtractImagesFromPage
相同,但從特定的頁面範圍或單獨頁面的列表中提取圖像。-
ExtractRawImagesFromPage
和ExtractRawImagesFromPages
:與前兩個方法的工作方式相同,但返回提取的圖像為位元組陣列而非IronSoftware.Drawing.AnyBitmap
對象。
如何在 C# 中讀取 PDF 檔案
- 下載 IronPDF 庫用於 C#
- 從 PDF 提取圖像或文本
- 在特定文件中讀取和查找詞語
- 從您的原始文件檢視 PDF 輸出