在C#中讀取PDF檔案
IronPDF C# PDF 程式庫中的 PdfDocument.ExtractAllText
方法非常適合進行基本的 PDF 文字閱讀任務。此方法能夠處理來源 PDF 文件內的空白和編碼不一致問題而不會有任何問題。
PdfDocument.ExtractTextFromPage
用於讀取 PDF 的特定頁面的文字。在上述範例中,我們看到它被反覆使用以從特定頁面範圍中檢索文字內容。
IronPDF 還可以從 PDF 中提取原始圖片。為此,請使用 PdfDocument
類中的以下任一方法:
ExtractAllImages
: 將 PDF 中嵌入的所有圖片作為IronSoftware.Drawing.AnyBitmap
對象返回。ExtractAllRawImages
: 將所有嵌入的圖片作為原始位元組列表檢索。 (`位元組 []).
ExtractImagesFromPage
: 從索引頁面提取包含的圖像ExtractImagesFromPages
: 與ExtractImagesFromPage
相同,但來自特定範圍內或個別頁面的圖像。ExtractRawImagesFromPage
和ExtractRawImagesFromPages
: 與前兩種方法相同,但提取的圖像以位元組數組形式返回,而不是以IronSoftware.Drawing.AnyBitmap
對象形式返回。
如何在 C# 中讀取 PDF 文件
- 下載讀寫 PDF 的 C# 函式庫
- 從 PDF 提取圖像或文本
- 在特定文件中讀取和查找詞語
- 從您的原始文件檢視 PDF 輸出