在 C# 中读取 PDF 文件

string(12) "点击复制"

import {PdfDocument} from "@ironsoftware/ironpdf";

(async () => {
    // Extracting Image and Text content from Pdf Documents
    // Import existing PDF document
    const pdf = await PdfDocument.fromHtml("old_report.pdf");
    
    // Get all text to put in a search index
    const text = await pdf.extractText();
    
    // Get all Images
    const imagesBuffer = await pdf.extractRawImages();
    
    const pageCount = await pdf.getPageCount()
    // Or even find the precise text and images for each page in the document
    for (let index = 0; index < pageCount; index++) {
        text = await pdf.extractText([index]);
        imagesBuffer = await pdf.extractRawImages([index]);
    }
})();

在 C# 中读取 PDF 文件

提取文本和图像可以在从一种文档格式转换到另一种时方便数据迁移。提取的内容可以保存在更易访问和可编辑的格式中，降低数据丢失的风险。

嵌入的图像和文本可以独立于PDF文档提取。提取的文本将是普通字符串，而提取的图像将是图像缓冲区格式，之后可以导出或进一步处理。

使用 extractText 方法从 PDF 文档中提取文本，使用 extractRawImages 方法从 PDF 文档中提取图像。

这是一个经过更正和注释的示例，说明您可能如何执行此操作：

在上述C#代码中：

我们使用IronPDF库加载PDF文档。
调用 ExtractText() 方法从 PDF 中检索文本。该文本输出到控制台。
ExtractImages() 方法用于提取存储在字节数组中的图像。然后每个图像都以指定文件名保存到文件系统中。

有关如何使用这些方法的更详细说明，请访问IronPDF文档。

探索有关使用 IronPDF 阅读 PDF 文本的更多内容

准备开始了吗？

版本: 2026.3 刚刚发布

查看许可证

还在滚动吗？

想快速获得证据？
运行示例看着你的HTML代码变成PDF文件。

查看许可证

Iron Support Team

We're online 24 hours, 5 days a week.

Chat

Email

Call Me