在 C# 中读取 PDF 文件

IronPDF C# PDF 库中的 PdfDocument.ExtractAllText 方法非常适合处理基础的 PDF 文本读取任务。 此方法可以处理源 PDF 文档中的空白和编码不一致问题。

PdfDocument.ExtractTextFromPage 从 PDF 的特定页面中读取文本。 在下面的示例中,我们看到它被迭代使用以从特定页面范围中获取文本内容。

IronPDF 也可以从 PDF 中提取原始图像。 为此,请使用下方 PdfDocument 类中的任一方法:

  • ExtractAllImages:将 PDF 中嵌入的所有图像作为 IronSoftware.Drawing.AnyBitmap 对象返回。
  • ExtractAllRawImages:将所有嵌入的图像作为原始字节列表检索 (byte[])。
  • ExtractImagesFromPage:提取索引页面中包含的图片。
  • ExtractImagesFromPages:与 ExtractImagesFromPage 相同,但仅限于特定页码范围或单个页码列表。
  • ExtractRawImagesFromPageExtractRawImagesFromPages:工作原理与前两种方法相同,但会将提取的图像作为字节数组返回,而非 IronSoftware.Drawing.AnyBitmap 对象。

Learn more about ExtractTextFromPage Method

准备开始了吗?
Nuget 下载 19,014,616 | 版本: 2026.5 just released
Still Scrolling Icon

还在滚动吗?

想快速获得证据? PM > Install-Package IronPdf
运行示例看着你的HTML代码变成PDF文件。