使用IRONPDF

C# 从 PDF 提取文本（代码示例教程）

Name: IronPDF
Brand: Iron Software
Availability: InStock
Rating: 4.87 (307 reviews)

Kye Stuart

2022年六月27日

更新 2023年十二月3日

您的企业在PDF安全性和合规性的年度订阅上花费过多。考虑 IronSecureDoc 由 Iron Software 翻译，提供了管理SaaS服务的解决方案，如数字签名、编辑、加密和保护，且仅需一次性付款。立即体验 IronSecureDoc

PDF(便携式文档格式)文件在无数行业中发挥着重要作用，使企业能够安全地共享、存储和管理文件。对于开发人员来说，使用 PDF 文件通常涉及创建、阅读、转换和提取内容，以支持客户需求。从 PDF 中提取文本对于数据分析、文档索引、内容迁移或启用可访问性功能等任务至关重要。现代库，如IronPDF通过使用《PDF Converter》，这些任务比以往任何时候都要简单，它提供了功能强大的工具，可让您以最小的工作量处理 PDF 文件。

本指南侧重于最常见的需求之一：用 C# 从 PDF 中提取文本。我们将引导您在 Visual Studio 中设置一个项目，安装 IronPdf，并通过简明的代码示例使用它执行文本提取。在翻译过程中，我们将重点介绍 IronPDF 的强大功能，包括使用 .NET 创建、处理和转换 PDF 文件的能力。无论您是在构建文档繁重的应用程序，还是仅仅需要高效的 PDF 处理，本教程都将助您一臂之力。

如何用 C# 从 PDF 中提取文本

下载从 PDF 提取文本 C# 库
在 Visual Studio 中创建新项目
将库安装到项目中
从 PDF 文件中提取文本
查看 PDF 文档的文本输出

1.IronPDF 功能

IronPdf 是一款功能强大的 PDF 转换器，几乎可以执行浏览器可以执行的任何操作。使用面向开发人员的 .NET 库，创建、阅读和操作 PDF 文档非常简单。 IronPDF 使用 Chrome 引擎将 HTML 文档转换为 PDF 文档。IronPdf 支持 HTML、ASPX、Razor HTML 和 MVC View 等网络组件。 IronPDF 支持 Microsoft .NET 应用程序(ASP.NET 网络应用程序和传统的 Windows 应用程序). IronPDF 还可用于创建具有视觉吸引力的 PDF 文档。

我们可以用 IronPDF 将 HTML5、JavaScript、CSS 和图片制作成 PDF 文档。此外，文件可以有页眉和页脚。多亏了 IronPDF，我们才能轻松阅读 PDF 文档。 IronPDF 还拥有全面的 PDF 转换引擎和强大的 HTML 到 PDF 转换器，可以处理 PDF 文档。

PDF 创建： 从 HTML、JavaScript、CSS、图像或 URL 生成 PDF。添加页眉、页脚、书签、水印和其他自定义元素，以增强设计效果。
HTML 到 PDF 的转换： 将 HTML、Razor/MVC 视图和媒体类型 CSS 文件直接转换为 PDF 格式。
交互式 PDF 功能： 构建、填充和提交交互式 PDF。PDF 表单.
文本和图像提取： 从现有 PDF 文档中提取文本或图像，用于数据处理或重复使用。
文档处理：合并、拆分、在新的或现有的 PDF 文件中重新排列页面。
图像和页面处理： 将 PDF 页面栅格化为图像，并转换为将图像转换为 PDF 格式.
使用自定义登录凭证工作： IronPDF 能够从 URL 创建文档。它还支持自定义网络登录凭据、用户代理、代理服务器、cookie、HTTP 标头和表单变量，用于在 HTML 登录表格后面登录.
搜索和可访问性： 搜索 PDF 文档中的文本，确保它们符合可访问性标准。
转换多样性： 将 PDF 转换为 HTML 等其他格式，并使用 CSS 文件生成 PDF。
Standalone 功能： 可独立运行，无需 Adobe Acrobat 或其他第三方工具。

2.在 Visual Studio 中创建新项目

打开 Visual Studio 软件，进入 "文件 "菜单。选择 "新建项目"，然后选择 "控制台应用程序"。在本文中，我们将使用控制台应用程序生成 PDF 文档。

C# 从 PDF 中提取文本（代码示例教程），图 1：在 Visual Studio 中创建新项目

在Visual Studio中创建一个新项目

在相应文本框中输入项目名称并选择文件路径。然后，单击"创建"按钮，选择所需的 .NET Framework，如下面的截图所示。

C# 从 PDF 中提取文本（代码示例教程），图 2：在 Visual Studio 中配置新项目

在 Visual Studio 中配置新项目

Visual Studio 项目现在将为所选应用程序生成结构，如果您选择了控制台、Windows 和 Web 应用程序，它将打开 program.cs 文件，您可以在其中输入代码并构建/运行应用程序。

C# 从 PDF 中提取文本（代码示例教程），图 3：选择 .NET Core

选择 .NET Core

接下来，我们可以添加库来测试代码。

3.安装 IronPDF 库

IronPDF 库可以通过四种方式下载和安装。

它们是

使用 Visual Studio。
使用 Visual Studio 命令行
直接从 NuGet 网站下载。
直接从 IronPDF 网站下载。

3.1 使用 Visual Studio

Visual Studio 软件提供了 NuGet 软件包管理器选项，可直接将软件包安装到解决方案中。下面的截图显示了如何打开 NuGet 包管理器。

C# 从 PDF 中提取文本（代码示例教程），图 4：Visual Studio program.cs 文件

Visual Studio program.cs 文件

它提供了搜索框来显示 NuGet 网站上的软件包列表。在软件包管理器中，我们需要搜索关键词 "IronPdf"，如下截图所示。

C# 从 PDF 中提取文本（代码示例教程），图 5：NuGet 包管理器

NuGet软件包管理器

在上图中，我们可以看到相关搜索项的列表。我们需要选择所需的选项，将软件包安装到解决方案中。

3.2 使用 Visual Studio 命令行

在 Visual Studio 中，转到工具 > NuGet 包管理器 > 包管理器控制台

在软件包管理器控制台选项卡中输入以下一行：

Install-Package IronPdf

现在，软件包将下载/安装到当前项目，并可随时使用。

C# 从 PDF 中提取文本（代码示例教程），图 6：NuGet 包管理器中的 IronPdf 库

NuGet 软件包管理器中的 IronPdf 库**

3.3 直接从 NuGet 网站下载

第三种方法是下载IronPDF NuGet 软件包直接从其网站获取。

导航至 NuGet 上的 IronPDF 软件包。
从右侧菜单中选择下载软件包选项。
双击下载的软件包。它将自动安装。
接下来，重新加载解决方案并开始在项目中使用。

3.4 直接从 IronPDF 网站下载

参观IronPDF 官方网站您可以直接从他们的网站下载最新的软件包。下载完成后，请按照以下步骤将软件包添加到项目中。

右键单击解决方案窗口中的项目。
接着，选择“引用”选项并浏览下载的引用位置。
然后，单击 "确定 "添加引用。

4.使用 IronPDF 提取文本

IronPDF 程序允许我们从 PDF 文件中进行文本提取，并将 PDF 页面转换为 PDF 对象。下面举例说明如何使用 IronPDF 读取现有 PDF。

第一种方法是从 PDF 中提取文本，示例代码片段如下。

using IronPdf;

var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();

using IronPdf;

var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();

Imports IronPdf

Private pdfDocument = PdfDocument.FromFile("result.pdf")
Private AllText As String = pdfDocument.ExtractAllText()

"(《世界人权宣言》)从文件静态方法用于从现有文件加载 PDF 文档，并将其转换为PDFDocument如上代码所示，我们需要翻译的是.NET、Java、Python 或 Node.js 对象。我们可以使用此对象阅读 PDF 页面上可访问的文本和图像。该对象有一个名为提取所有文本我们可以使用 "提取 "工具，它可以从整个 PDF 文档中提取所有文本，然后将提取的文本保存为字符串，我们可以使用该字符串进行处理。

下面是第二种方法的代码示例，我们可以使用这种方法从 PDF 文件中逐页提取文本。

using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    string Text = pdf.ExtractTextFromPage(index);
}

using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    string Text = pdf.ExtractTextFromPage(index);
}

Using pdf As PdfDocument = PdfDocument.FromFile("result.pdf")
	For index = 0 To pdf.PageCount - 1
		Dim Text As String = pdf.ExtractTextFromPage(index)
	Next index
End Using

在上面的代码中，我们看到它将首先加载整个 PDF 文档并将其转换为 PDF 对象。然后，我们使用一种名为 "Page Count "的内置方法来获取整个 PDF 文档的页数。页数点击"......"，这将检索已加载 PDF 文档的可用总页数。使用 "for 循环 "和从页面提取文本该功能允许我们将页码作为参数传递，以便从加载的文档中提取文本。然后将准确的文本保存到字符串变量中。同样，它还将借助 "for "或 "for each "循环从 PDF 中逐页提取文本。

结论

IronPDF for .NET 是一个多功能、功能强大的 PDF 库，旨在使 .NET 应用程序中的 PDF 工作无缝进行。其强大的功能使开发人员能够创建、处理和提取 PDF 中的内容，而无需依赖 Adobe Reader 等第三方依赖程序。 IronPdf 的突出功能之一是从 PDF 文档中提取文本。该功能对于自动执行数据分析、文档索引、内容迁移和启用可访问性功能等任务非常宝贵。通过允许开发人员以编程方式检索和处理文本，IronPDF 简化了工作流程，为处理 PDF 内容开辟了新的可能性。

IronPDF 具有直接集成和跨平台支持的特点，是寻求高效处理 PDF 文档的开发人员的绝佳选择。此外，IronPDF 还提供了一个免费试用此外，译文还应让您在无风险的情况下了解这些工具的全部功能。有关定价详情和许可选项的更多信息，请访问我们的定价页.

Kye Stuart

立即与工程团队聊天

技术作家

Kye Stuart 在 Iron Software 将对编程的热情与写作技巧相结合。他毕业于 Yoobee 学院，专攻软件部署，现在将复杂的技术概念转化为明确的教育内容。Kye 重视终身学习，乐于接受新的技术挑战。

工作之外，他们喜欢玩 PC 游戏，在 Twitch 上直播，以及户外活动如园艺和遛狗（他们的狗叫 Jaiya）。Kye 直截了当的方法使他们成为 Iron Software 实现全球开发人员技术平易化使命的关键人物。

< 前一页
如何使用C#在ASP.NET中生成PDF

下一步 >
如何在C#中从PDF中提取数据