在 C# 中读取 PDF 文件

IronPDF C# PDF 库中的 PdfDocument.ExtractAllText 方法非常适合普通的 PDF 文本读取任务。 此方法可以处理源 PDF 文档中的空白和编码不一致问题。

PdfDocument.ExtractTextFromPage 读取 PDF 中特定页面的文本。 在下面的示例中,我们看到它被迭代使用以从特定页面范围中获取文本内容。

IronPDF 也可以从 PDF 中提取原始图像。 为此,请使用以下 PdfDocument 类中的任一方法:

  • ExtractAllImages : 返回 PDF 中嵌入的所有图像作为 IronSoftware.Drawing.AnyBitmap 对象。
  • ExtractAllRawImages : 以原始字节列表的形式检索所有嵌入的图像 (byte[])。
  • ExtractImagesFromPage : 提取索引页面上包含的图像。
  • ExtractImagesFromPages : 与 ExtractImagesFromPage 相同,但来自特定的页面范围或单个页面列表。
  • ExtractRawImagesFromPages :与前两个方法的工作方式相同,但返回提取的图像为字节数组而不是 IronSoftware.Drawing.AnyBitmap 对象。

Learn more about ExtractTextFromPage Method

准备开始了吗?
Nuget 下载 17,803,474 | 版本: 2026.3 刚刚发布
Still Scrolling Icon

还在滚动吗?

想快速获得证据? PM > Install-Package IronPdf
运行示例看着你的HTML代码变成PDF文件。