Extract Embedded Text and Images from PDFs in C

Curtis Chau

已更新:2026年2月15日

Translated

View the article in English

通过简单的方法调用，用 C# 从 PDF 文档中提取文本内容和图像。检索嵌入内容，以便在其他应用程序中进行编辑、分析或重新使用。

您的企业在 PDF 安全性和合规性方面的年度订阅费用过高。请考虑IronSecureDoc，它为管理数字签名、编辑、加密和保护等 SaaS 服务提供解决方案，所有这些都只需一次性支付。探索 IronSecureDoc 文档

文本和图像提取可检索 PDF 文档中的文本内容和图形元素。访问和重新利用内容，以便进行编辑、搜索、将文本转换为其他格式或保存图像以供重复使用。无论您是需要用 C# 解析 PDF 以进行数据分析、将内容转换为可搜索格式，还是提取可视化元素以进行归档，IronPDF 都能提供全面的提取工具。
using IronPDF 提取文本和图像。将提取的图像保存到磁盘或转换为其他格式，然后再嵌入到新文档中。这种灵活性可支持需要进行内容转换的工作流程，例如将 PDF 转换为 HTML 或重新利用提取的图像。

快速入门：使用IronPDF提取文本和图像

只需几行代码即可从 PDF 中提取文本和图像。本快速入门手册演示了如何从 PDF 文档中检索嵌入内容，以便进行内容再利用和分析。使用 IronPDF 的精简解决方案，提取文本进行编辑或保存图像以供进一步使用。

使用 NuGet 包管理器安装 https://www.nuget.org/packages/IronPdf
PM > Install-Package IronPdf

复制并运行这段代码。

var pdf = new IronPdf.PdfDocument("sample.pdf");  
string text = pdf.ExtractAllText();  
var images = pdf.ExtractAllImages();

部署到您的生产环境中进行测试

通过免费试用立即在您的项目中开始使用IronPDF

最小工作流程（5 个步骤）

下载IronPdf C#库
准备PDF文档以进行文本和图像提取
使用 ExtractAllText 方法提取文本
使用 ExtractAllImages 方法提取图像
指定要从中提取文本和图像的特定页面

如何从 PDF 中提取文本？

从新渲染的和现有的 PDF 文档中提取文本。使用ExtractAllText方法从文档中提取嵌入的文本。该方法返回一个包含 PDF 中所有文本的字符串。各页之间用四个连续换行符隔开。本示例使用了从维基百科网站渲染的示例 PDF。

在处理包含国际语言和 UTF-8 字符的 PDF 时，IronPDF 可保持正确的编码和字符表示。这将确保正确显示非拉丁脚本和特殊字符。

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text.cs

using IronPdf;
using System.IO;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Extract text
string text = pdf.ExtractAllText();

// Export the extracted text to a text file
File.WriteAllText("extractedText.txt", text);

Imports IronPdf
Imports System.IO

Private pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")

' Extract text
Private text As String = pdf.ExtractAllText()

' Export the extracted text to a text file
File.WriteAllText("extractedText.txt", text)

$vbLabelText $csharpLabel

如何提取具有精确坐标的文本？

检索每个 PDF 页面中文本行和字符的坐标。从PDF中选择一页，访问Characters属性。坐标包括表示文本位置的Left值。该功能保留了空间布局，并可进行文本位置分析。

对于需要在 C# 中读取具有位置意识的 PDF 文件的开发人员来说，坐标提取为维护文档结构和实施高级文本分析提供了数据。

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-by-line-character.cs

using IronPdf;
using System.IO;
using System.Linq;

// Open PDF from file
PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Extract text by lines
var lines = pdf.Pages[0].Lines;

// Extract text by characters
var characters = pdf.Pages[0].Characters;

File.WriteAllLines("lines.txt", lines.Select(l => $"at Y={l.BoundingBox.Bottom:F2}: {l.Contents}"));

Imports IronPdf
Imports System.IO
Imports System.Linq

' Open PDF from file
Private pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")

' Extract text by lines
Private lines = pdf.Pages(0).Lines

' Extract text by characters
Private characters = pdf.Pages(0).Characters

File.WriteAllLines("lines.txt", lines.Select(Function(l) $"at Y={l.BoundingBox.Bottom:F2}: {l.Contents}"))

$vbLabelText $csharpLabel

我最喜欢的这种库是 IronPDF。它允许快速高效地操作 PDF 文件。它还具有许多有价值的功能，比如导出为 PDF/A 格式和数字签名 PDF 文档。

Milan Jovanovic

微软MVP

查看案例研究

IronOCR 意味着我们每年可以节省 $40,000 的人工处理成本，同时提高生产力，并释放资源用于高影响任务。我强烈推荐它。

Brent Matzelle

首席技术官，OPYN

查看案例研究

如何从 PDF 中提取图像？

使用ExtractAllImages方法从文档中提取所有嵌入的图像。该方法返回包含AnyBitmap对象列表。使用同一文档，我们提取了图片并将其导出到 "images "文件夹。该功能支持图像归档、内容迁移和将 PDF 页面栅格化为图像以便进一步处理。

提取的图像可以保持原始质量，并可以 PNG、JPEG 和 BMP 等多种格式保存。对于云存储工作流，可将此功能与用于图像管理的 Azure Blob Storage 集成。

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-image.cs

using IronPdf;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Extract images
var images = pdf.ExtractAllImages();

for(int i = 0; i < images.Count; i++)
{
    // Export the extracted images
    images[i].SaveAs($"images/image{i}.png");
}

Imports IronPdf

Private pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")

' Extract images
Private images = pdf.ExtractAllImages()

For i As Integer = 0 To images.Count - 1
	' Export the extracted images
	images(i).SaveAs($"images/image{i}.png")
Next i

$vbLabelText $csharpLabel

图像提取有哪些不同方法？

除了ExtractAllRawImages方法提取图像信息。虽然byte[]）返回。

ExtractAllRawImages方法在处理内存中的图像数据或与需要字节数组输入的系统集成时效果很好。对于涉及将 PDF 导出到内存流的场景，原始字节数组格式提供了最佳的灵活性。

如何从特定 PDF 页面中提取内容？

从单个或多个指定页面中提取文本和图像。使用ExtractTextFromPages方法从一页或多页中提取文本。对于图像，使用ExtractImagesFromPages方法。

在处理只有特定部分包含相关内容的大型文档时，这种细粒度的控制很有帮助。它还支持分割 PDF 和提取单个页面进行单独处理的功能。

:path=/static-assets/pdf/content-code-examples/how-to/extract-text-and-images-extract-text-single-multiple.cs

using IronPdf;

PdfDocument pdf = PdfDocument.FromFile("sample.pdf");

// Extract text from page 1
string textFromPage1 = pdf.ExtractTextFromPage(0);

int[] pages = new[] { 0, 2 };

// Extract text from pages 1 & 3
string textFromPage1_3 = pdf.ExtractTextFromPages(pages);

Imports IronPdf

Private pdf As PdfDocument = PdfDocument.FromFile("sample.pdf")

' Extract text from page 1
Private textFromPage1 As String = pdf.ExtractTextFromPage(0)

Private pages() As Integer = { 0, 2 }

' Extract text from pages 1 & 3
Private textFromPage1_3 As String = pdf.ExtractTextFromPages(pages)

$vbLabelText $csharpLabel

何时应从特定页面而非所有页面提取内容？

在以下情况下从特定页面提取内容

处理包含某些区域内相关数据的大型PDF
实现独立处理页面的工作流程
构建需要增量内容显示或处理的应用程序
通过仅处理需要的页面优化内存使用
创建特定页面的搜索或索引功能

我应该了解哪些性能注意事项？

提取 PDF 内容时要考虑这些性能因素：

内存使用：从大型文档中单独提取页面以最小化内存消耗
处理时间：在适当时使用并行处理进行多页提取
文件大小：包含高分辨率图像的大型PDF需要更多的处理时间
存储：为提取大量高分辨率图像计划足够的硬盘空间
多线程：IronPDF支持多线程操作，在多核系统上提高性能

要使内存 PDF 获得最佳性能，请使用内存流操作，以减少磁盘 I/O 开销。

常见问题解答

如何用 C# 从 PDF 文档中提取文本？

using IronPDF 的 ExtractAllText 方法从 PDF 文档中提取嵌入的文本。该方法会返回一个包含 PDF 中所有文本的字符串，各页之间用四个连续换行符隔开。IronPDF 可为国际语言和 UTF-8 字符保持正确的编码。

我可以通过编程从 PDF 文件中提取图像吗？

是的，IronPDF 提供了 ExtractAllImages 方法，用于从 PDF 文档中检索图形元素。您可以将提取的图像保存到磁盘或转换为其他格式，然后再将其嵌入到新文档中。

PDF 内容提取的主要用途是什么？

IronPDF 的提取工具支持各种工作流程，包括解析 PDF 以进行数据分析、将内容转换为可搜索格式、提取可视化元素进行存档，以及将内容重新用于编辑或转换为 HTML 等其他格式。

提取 PDF 内容需要多少行代码？

有了 IronPDF，您只需几行代码就能提取文本和图像。只需加载 PDF 文档，然后调用 ExtractAllText() 提取文本或 ExtractAllImages() 提取图像即可。

我可以从特定页面而不是整个文档中提取内容吗？

是的，IronPDF 允许您指定从中提取文本和图像的特定页面，让您精确控制从 PDF 文档中检索哪些内容。

Curtis Chau

立即与工程团队聊天

技术作家

Curtis Chau 拥有卡尔顿大学的计算机科学学士学位，专注于前端开发，精通 Node.js、TypeScript、JavaScript 和 React。他热衷于打造直观且美观的用户界面，喜欢使用现代框架并创建结构良好、视觉吸引力强的手册。

除了开发之外，Curtis 对物联网 (IoT) 有浓厚的兴趣，探索将硬件和软件集成的新方法。在空闲时间，他喜欢玩游戏和构建 Discord 机器人，将他对技术的热爱与创造力相结合。

准备开始了吗？

Nuget 下载 20,088,359 | 版本: 2026.7 刚刚发布

查看许可证

还在滚动吗？

想快速获得证据？ PM > Install-Package IronPdf
运行示例看着你的HTML代码变成PDF文件。

查看许可证

客户亮点：

开发者焦点：

网络研讨会：

立即开始30天免费试用

本页内容

Extract Embedded Text and Images from PDFs in C

使用 NuGet 包管理器安装 https://www.nuget.org/packages/IronPdf

复制并运行这段代码。

部署到您的生产环境中进行测试

最小工作流程（5 个步骤）

如何从 PDF 中提取文本？

如何提取具有精确坐标的文本？

Milan Jovanovic

Brent Matzelle

David Jones

如何从 PDF 中提取图像？

图像提取有哪些不同方法？

如何从特定 PDF 页面中提取内容？

何时应从特定页面而非所有页面提取内容？

我应该了解哪些性能注意事项？

常见问题解答

如何用 C# 从 PDF 文档中提取文本？

我可以通过编程从 PDF 文件中提取图像吗？

PDF 内容提取的主要用途是什么？

提取 PDF 内容需要多少行代码？

我可以从特定页面而不是整个文档中提取内容吗？

还在滚动吗？

您的许可证密钥已发送到您的收件箱

您的演示请求已提交。

钢铁支援团队

立即开始30天免费试用

本页内容

Extract Embedded Text and Images from PDFs in C

使用 NuGet 包管理器安装 https://www.nuget.org/packages/IronPdf

复制并运行这段代码。

部署到您的生产环境中进行测试

最小工作流程（5 个步骤）

如何从 PDF 中提取文本？

如何提取具有精确坐标的文本？

Milan Jovanovic

Brent Matzelle

David Jones

如何从 PDF 中提取图像？

图像提取有哪些不同方法？

如何从特定 PDF 页面中提取内容？

何时应从特定页面而非所有页面提取内容？

我应该了解哪些性能注意事项？

常见问题解答

如何用 C# 从 PDF 文档中提取文本？

我可以通过编程从 PDF 文件中提取图像吗？

PDF 内容提取的主要用途是什么？

提取 PDF 内容需要多少行代码？

我可以从特定页面而不是整个文档中提取内容吗？

还在滚动吗？

免费获取

下一步：开始免费 30 天试用

Thank You

下一步：开始免费 30 天试用

想免费将 IronSuite 部署到实际项目中吗？

包括什么？

您的许可证密钥已发送到您的收件箱

您的演示请求已提交。

深受全球数百万工程师信赖

钢铁支援团队