在C#中阅读PDF文件

IronPDF C# PDF 库中的 PdfDocument.ExtractAllText 方法是完成普通 PDF 文本阅读任务的完美工具。该方法可轻松处理源 PDF 文档中的空白和编码差异。

PdfDocument.ExtractTextFromPage "从 PDF 的特定页面读取文本。在上面的示例中,我们看到它被反复用于从特定范围的页面中检索文本内容。

IronPDF 还能从 PDF 中提取原始图像。为此,请使用下面 "PDFDocument "类中的任一方法:

  • ExtractAllImages:以IronSoftware.Drawing.AnyBitmap对象的形式返回 PDF 中嵌入的所有图像。
  • ExtractAllRawImages:以原始字节列表的形式检索所有嵌入的图像。 (字节 []`).
  • ExtractImagesFromPage:提取索引页面中包含的图像
  • ExtractImagesFromPages:与ExtractImagesFromPage相同,但是从特定页面范围或单个页面列表中提取。

  • ExtractRawImagesFromPage`ExtractRawImagesFromPages:与前两个方法相同,但提取的图像以字节数组形式返回,而不是以IronSoftware.Drawing.AnyBitmap对象形式返回。