在 C# 中读取 PDF 文件

提取文本和图像可以在从一种文档格式转换到另一种时方便数据迁移。 提取的内容可以保存在更易访问和可编辑的格式中,降低数据丢失的风险。

嵌入的图像和文本可以独立于PDF文档提取。 提取的文本将是普通字符串,而提取的图像将是图像缓冲区格式,之后可以导出或进一步处理。

使用extractText方法提取文本,使用extractRawImages方法从PDF文档中提取图像。

这是一个经过更正和注释的示例,说明您可能如何执行此操作:

在上述C#代码中:

  • 我们使用IronPDF库加载PDF文档。
  • 调用ExtractText()方法从PDF中检索文本。 该文本输出到控制台。
  • 使用ExtractImages()方法提取图像,这些图像存储在字节数组中。 然后每个图像都以指定文件名保存到文件系统中。

有关如何使用这些方法的更详细说明,请访问IronPDF文档

深入了解使用IronPDF读取PDF文本

准备开始了吗?
版本: 2025.11 刚刚发布