使用IRONPDF C#从PDF中提取文本(代码示例教程) Kye Stuart 已更新:七月 28, 2025 Download IronPDF NuGet 下载 DLL 下载 Windows 安装程序 Start Free Trial Copy for LLMs Copy for LLMs Copy page as Markdown for LLMs Open in ChatGPT Ask ChatGPT about this page Open in Gemini Ask Gemini about this page Open in Grok Ask Grok about this page Open in Perplexity Ask Perplexity about this page Share Share on Facebook Share on X (Twitter) Share on LinkedIn Copy URL Email article role="alert"> 您的企业在PDF安全和合规性的年度订阅上花费过多。请考虑使用Iron Software的IronSecureDoc,它提供的解决方案可以管理如数字签名、文本编辑、加密和保护等SaaS服务,所有只需一次性付费。立即体验IronSecureDoc PDF(便携文档格式)文件在无数行业中发挥着重要作用,使企业能够安全地共享、存储和管理文档。 对于开发人员来说,处理PDF通常涉及到创建、读取、转换和提取内容以支持客户需求。 从PDF中提取文本对于数据分析、文件索引、内容迁移或启用可访问性功能等任务至关重要。 像IronPDF这样的现代库让这些任务变得比以往更容易,提供强大的工具来最小限度地操控PDF文件。 本指南着重于最常见的要求之一:在C#中从PDF中提取文本。 我们将带您完成在Visual Studio中设置项目、安装IronPDF并使用它进行文本提取的简明代码示例。 在此过程中,我们将重点介绍IronPDF的强大功能,包括其使用.NET创建、操作和转换PDF文件的能力。 无论您是在构建文档密集型应用程序还是仅需高效处理PDF,这篇教程将帮助您入门。 class="hsg-featured-snippet"> 如何在C#中从PDF中提取文本 下载从PDF中提取文本的C#库 在Visual Studio中创建新项目 将库安装到您的项目中 从PDF文件执行文本提取 查看PDF文档中的文本输出 1. IronPDF 功能 IronPDF是一款强大的PDF转换器,几乎可以执行浏览器能做的任何操作。 对于开发人员来说,使用.NET库创建、读取和操作PDF文档非常简单。 IronPDF使用Chrome引擎将HTML转换为PDF文档。IronPDF支持HTML、ASPX、Razor HTML以及MVC View等网页组件。 Microsoft .NET应用程序由IronPDF支持(包括ASP.NET Web应用程序和传统的Windows应用程序)。 IronPDF也可用于创建一个吸引人的PDF文档。 我们可以使用IronPDF从HTML5、JavaScript、CSS和图像制作PDF文档。 此外,文件还可以有页眉和页脚。 得益于IronPDF,我们可以轻松读取PDF文档。 IronPDF还具有全面的PDF转换引擎和强大的HTML到PDF转换器,能够处理PDF文档。 PDF创建: 从HTML、JavaScript、CSS、图像或URL生成PDF。 添加页眉、页脚、书签、水印和其他自定义元素以增强设计。 HTML到PDF转换: 直接将HTML、Razor/MVC视图和媒体类型CSS文件转换为PDF格式。 交互式PDF功能: 创建、填写和提交交互式PDF表单。 文本和图像提取: 从现有PDF文档中提取文本或图像以进行数据处理或重用。 文档操作: 合并、拆分和重新排列新或现有PDF文件中的页面。 图像和页面处理: 将PDF页面栅格化为图像并将图像转换为PDF格式。 使用自定义登录凭据: IronPDF能够从URL创建文档。 它还支持自定义网络登录凭据、用户代理、代理、cookies、HTTP头和用于在HTML登录表单后面进行登录的表单变量。 搜索和可访问性: 在PDF文档中搜索文本并确保它们符合可访问性标准。 转换多样性: 将PDF转化为其他格式如HTML,并使用CSS文件生成PDF。 独立功能: 独立运行,无需Adobe Acrobat或其他第三方工具。 2. 在Visual Studio中新建项目 打开 Visual Studio 软件并转到文件菜单。 选择 "新建项目" 然后选择 "控制台应用程序"。 在这篇文章中,我们将使用控制台应用程序生成PDF文档。 在Visual Studio中创建新项目 输入项目名称,并在相应的文本框中选择文件路径。 然后,单击 创建 按钮并选择所需的.NET Framework,如下图所示。 配置Visual Studio中的新项目 Visual Studio项目现在将生成所选应用程序的结构,如果您选择了控制台、Windows和Web应用程序,它将打开program.cs文件,您可以在其中输入代码并构建/运行应用程序。 选择.NET Core 接下来,我们可以添加库来测试代码。 3. 安装IronPDF库 IronPDF库可以通过四种方式下载和安装。 这些是: 使用Visual Studio。 使用Visual Studio命令行。 从NuGet网站直接下载。 从IronPDF网站直接下载。 3.1 使用Visual Studio Visual Studio软件提供NuGet包管理器选项直接将包安装到解决方案。 下面的截图显示了如何打开NuGet包管理器。 Visual Studio program.cs文件 它提供搜索框以显示来自NuGet网站的软件包列表。在软件包管理器中,我们需要搜索关键字"IronPdf",如下图所示。 NuGet软件包管理器 在上图中,您可以看到相关搜索项目的列表。 我们需要选择所需的选项将包安装到解决方案中。 3.2 使用Visual Studio命令行 在Visual Studio中,转到工具 > NuGet包管理器 > 软件包管理器控制台 在包管理器控制台选项卡中输入以下行: Install-Package IronPdf 现在包将下载/安装到当前项目,并可以使用了。 NuGet软件包管理器中的IronPdf库 3.3 从NuGet网站直接下载 第三种方法是直接从他们的网站下载IronPDF NuGet包。 导航到NuGet上的IronPDF包。 从右侧菜单中选择下载包选项。 双击已下载的包。 它将自动安装。 接下来,重新加载解决方案并开始在项目中使用它。 3.4 从IronPDF网站直接下载 访问IronPDF官网以直接从他们的网站下载最新的软件包。下载后,按照下面的步骤将包添加到项目中。 从解决方案窗口右键点击项目。 然后,选择选项引用并浏览已下载引用的位置。 然后,单击确定以添加参考。 4. 使用IronPDF提取文本 IronPDF程序允许我们从PDF文件中执行文本提取并将PDF页面转换为PDF对象。 以下是如何使用IronPDF读取现有PDF的示例。 第一种方法是从PDF中提取文本,下面是示例代码片段。 using IronPdf; // Load an existing PDF document from a file var pdfDocument = PdfDocument.FromFile("result.pdf"); // Extract all text from the entire PDF document string allText = pdfDocument.ExtractAllText(); using IronPdf; // Load an existing PDF document from a file var pdfDocument = PdfDocument.FromFile("result.pdf"); // Extract all text from the entire PDF document string allText = pdfDocument.ExtractAllText(); Imports IronPdf ' Load an existing PDF document from a file Private pdfDocument = PdfDocument.FromFile("result.pdf") ' Extract all text from the entire PDF document Private allText As String = pdfDocument.ExtractAllText() $vbLabelText $csharpLabel FromFile静态方法用于从现有文件加载PDF文档并将其转换为PDFDocument对象,如上面的代码所示。 我们可以使用该对象读取 PDF 页面上可访问的文本和图像。 该对象有一个名为ExtractAllText的方法,该方法从整个PDF文档中提取所有文本,然后将提取的文本保存在我们可以用于处理的字符串中。 以下是我们可以使用的一种第二种方法的代码示例,按页面提取PDF文件中的文本。 using IronPdf; // Load an existing PDF document from a file using PdfDocument pdf = PdfDocument.FromFile("result.pdf"); // Loop through each page of the PDF document for (var index = 0; index < pdf.PageCount; index++) { // Extract text from the current page string text = pdf.ExtractTextFromPage(index); } using IronPdf; // Load an existing PDF document from a file using PdfDocument pdf = PdfDocument.FromFile("result.pdf"); // Loop through each page of the PDF document for (var index = 0; index < pdf.PageCount; index++) { // Extract text from the current page string text = pdf.ExtractTextFromPage(index); } Imports IronPdf ' Load an existing PDF document from a file Private PdfDocument As using ' Loop through each page of the PDF document For index = 0 To pdf.PageCount - 1 ' Extract text from the current page Dim text As String = pdf.ExtractTextFromPage(index) Next index $vbLabelText $csharpLabel 在上面的代码中,我们看到它首先加载整个PDF文档并将其转换为PDF对象。 然后,我们使用一个名为PageCount的内置属性来获得整个PDF文档的页数,该属性检索已加载PDF文档中可用的总页数。 使用"for循环"和ExtractTextFromPage函数允许我们将页码作为参数传递,从已加载的文档中提取文本。 接下来,它将准确的文本保存在字符串变量中。 同样,它将借助于"for"或"for each"循环逐页从PDF中提取文本。 5. 结论 IronPDF是一个多功能且强大的PDF库,旨在使在.NET应用程序中处理PDF无缝。 其强大的功能使开发人员能够创建、操作和提取内容,而无需依赖于诸如Adobe Reader之类的第三方依赖。 IronPDF的一项突出能力是从PDF文档中提取文本的能力。 这个功能对于自动化任务如数据分析、文档索引、内容迁移和启用可访问性功能非常有价值。 通过允许开发人员以编程方式检索和处理文本,IronPDF简化了工作流程,并为处理PDF内容开辟了新的可能性。 通过简单的集成和跨平台支持,IronPDF是寻求高效处理PDF文档的开发人员的理想选择。 此外,IronPDF提供免费试用,允许您在承诺之前无风险探索其全套功能。 有关定价详细信息及了解更多关于许可选项,请访问定价页面。 常见问题解答 如何使用 C# 从 PDF 文档中提取文本? 您可以通过使用 IronPDF 在 C# 中从 PDF 文档中提取文本。首先,使用 PdfDocument.FromFile 方法加载 PDF,然后应用 ExtractAllText 方法从文档中检索文本。 在 Visual Studio 项目中设置 IronPDF 包含哪些步骤? 要在 Visual Studio 项目中设置 IronPDF,您可以通过 NuGet 包管理器安装它。或者,您可以使用 Visual Studio 命令行或直接从 NuGet 或 IronPDF 网站下载它。 IronPDF 作为一个综合性的 PDF 库有什么特点? IronPDF 提供了广泛的功能,包括 PDF 创建、HTML 到 PDF 转换、文本和图像提取、文档操作以及支持交互式 PDF 表单。 IronPDF 可以用于在 C# 中将 HTML 转换为 PDF 吗? 是的,IronPDF 可以使用其集成的 Chrome 引擎直接将 HTML,包括 Razor/MVC 视图和媒体类型的 CSS 文件,转换为 PDF 格式。 IronPDF 是否兼容所有类型的 .NET 应用程序? 是的,IronPDF 兼容 ASP.NET Web 应用程序和传统的 Windows 应用程序,为 .NET 开发人员提供了灵活性。 IronPDF 如何促进 PDF 文档的可访问性? IronPDF 通过允许用户在 PDF 文档中搜索文本并确保他们遵循可访问性标准来增强可访问性。 IronPDF 是否需要任何第三方依赖项? IronPDF 独立运行,不需要像 Adobe Acrobat 这样的第三方工具,从而在您的 .NET 应用程序中实现无缝的 PDF 操控。 使用 IronPDF 从 PDF 中提取文本有哪些优势? IronPDF 通过实现程序化的文本提取来简化工作流程,这对于数据分析、文档索引和内容迁移非常有用。 IronPDF 是否提供试用版? 是的,IronPDF 提供免费试用,允许开发人员在做出购买决定之前探索其功能和能力。 在 .NET 应用程序中使用 IronPDF 进行 PDF 管理的重要性是什么? IronPDF 对于 .NET 应用程序的 PDF 管理至关重要,因为它的强大功能集包括 PDF 创建、文本提取和 HTML 到 PDF 转换,而无需像 Adobe Acrobat 这样的外部软件。 本文中的 C# PDF 文本提取代码与 .NET 10 兼容吗? 是的。本教程中的 PdfDocument.FromFile 和 ExtractText 示例在 .NET 10 中的运行方式与在早期 .NET 版本中相同。创建 .NET 10 项目后,从 NuGet 安装最新的 IronPDF 包,即可在现代 .NET 10 应用程序中运行相同的代码来读取 PDF 并提取文本。 Kye Stuart 立即与工程团队聊天 技术作家 Kye Stuart 在 Iron Software 中将编码热情与写作技能结合在一起。他在 Yoobee 学院接受软件部署教育,现在将复杂的技术概念转化为清晰的教育内容。Kye 重视终身学习,接受新的技术挑战。工作之余,他们喜欢 PC 游戏、Twitch 上的直播,以及户外活动如园艺和带狗 Jaiya 散步。Kye 的直截了当的方法使他们成为 Iron Software 使命的关键,即为全球开发者解密技术。 相关文章 已发布十一月 13, 2025 如何在 C# 中合并两个 PDF 字节数组 使用 IronPDF 在 C# 中合并两个 PDF 字节数组。学习通过简单的代码示例从字节数组、内存流和数据库合并多个 PDF 文件。 阅读更多 已发布十一月 13, 2025 如何创建 ASP.NET MVC PDF 查看器 为 ASP.NET MVC 应用程序构建一个强大的 PDF 查看器。显示 PDF 文档,将视图转换为 PDF,并使用 IronPDF 添加交互功能。 阅读更多 已发布十一月 13, 2025 如何构建 .NET HTML 到 PDF 转换器 学习如何使用 IronPDF 在 .NET 中将 HTML 转换为 PDF。 阅读更多 如何在C#中生成PDF如何在C#中从PDF中提取数据
已发布十一月 13, 2025 如何在 C# 中合并两个 PDF 字节数组 使用 IronPDF 在 C# 中合并两个 PDF 字节数组。学习通过简单的代码示例从字节数组、内存流和数据库合并多个 PDF 文件。 阅读更多
已发布十一月 13, 2025 如何创建 ASP.NET MVC PDF 查看器 为 ASP.NET MVC 应用程序构建一个强大的 PDF 查看器。显示 PDF 文档,将视图转换为 PDF,并使用 IronPDF 添加交互功能。 阅读更多