使用IRONPDF

C# 将 PDF 转换为文本(代码示例)

更新 2024年二月8日
分享:

本文概述了.NET 开发人员将 PDF 文件转换为 TXT 格式以便更有效访问的过程。

本教程涵盖的主题

  • IronPDF
  • 以编程方式创建 PDF 文件的步骤
  • 第 1 步:创建 C# 项目
  • 第 2 步:安装 IronPDF 库

    • 方法 1:NuGet 包管理器

    • 方法 2:NuGet 包管理器控制台
  • 方法 3: 使用 DLL 文件
  • 步骤 3:添加 IronPDF 命名空间
  • 第 4 步:将 PDF 转换为文本
  • 输出
  • 结论

IronPDF

IronPDF 是一个用于生成 PDF 的 .NET 库。它是一个本地 .NET 库,不依赖于外部 DLL 或其他工具。IronPDF 是一个用 C# 和 .NET 编写的跨平台库,提供处理 PDF 文档所需的所有功能。它包含文档渲染、表单编辑、文本提取、文件加密以及其他功能。所有这些操作都可通过直观的 API 执行,该 API 已在 Windows Forms、WPF、ASP.NET MVC 等各种平台上进行了广泛测试。

当前版本的 IronPDF 提供了对这些功能的简单访问:

只读访问 到文档内部 (视图、导航、注释):

进入 元数据和文件属性 (标题、关键词、作者、主题):

IronPDF 还包含一些额外的辅助类,可帮助实现以下功能 将 HTML 文档转换为完全格式化的 PDF 文件 文本提取。IronPDF 提供了非常简单的应用程序接口,可将 PDF 转换为文本文件。

让我们从如何使用 IronPDF 库将 PDF 文档转换为文本文件开始。

将 PDF 文档转换为文本文件的步骤

第一步是在 Visual Studio 中创建一个 C# 项目。您可以根据需要选择任何 C# 应用程序模板。为简单起见,本教程将使用控制台应用程序模板。您可以使用已有的 C# 项目将 PDF 转换为 TXT 文件。

第 1 步:创建 C#项目

在 Visual Studio 中创建 C# 项目或打开现有项目。建议使用最新版本的 Visual Studio,以便顺利开展工作。按照给出的步骤在 Visual Studio 中创建 C# 项目。

1.打开 Visual Studio。

2.选择 C# 控制台应用程序模板或打开现有项目。

3.为项目命名。

4.选择 .NET Framework 6.0 版本。这是最新、最稳定的 .NET 框架,但您也可以根据需要选择任何其他 .NET 框架。

第 2 步:安装 IronPDF 库

IronPDF 还具有简便的安装过程,可加快开发时间并减少混乱。IronPDF 库提供多种安装方式:

  • 使用 NuGet 软件包管理器
  • 使用 NuGet 包管理器控制台
  • 通过 DLL 文件

方法 1:NuGet 软件包管理器

要使用 NuGet 包管理器,请按照给出的步骤打开 "包管理器 "选项卡。

打开 C# 项目,然后点击 Tools > NuGet Package Manager > Manage NuGet Packaged for the solution

C# 将 PDF 转换为文本(代码示例),图 0:导航至 NuGet 包管理器

导航至 NuGet 软件包管理器

  • 现在转到 "浏览 "选项卡,搜索IronPDF
  • 从搜索结果中选择 IronPDF,然后点击 安装。这将安装 IronPDF 库,允许项目与 IronPDF 库一起使用。

C# 将 PDF 转换为文本(代码示例),图 1:从 NuGet 软件包管理器的搜索结果中找到 IronPdf 软件包

从 NuGet 软件包管理器的搜索结果中IronPdf 软件包

方法 2:NuGet 软件包管理器控制台

使用软件包管理器控制台安装 IronPDF 库是最简单的方法。请按照以下简单步骤操作:

  • 打开软件包管理器控制台
  • 在控制台中写入以下一行,然后点击回车。这将立即安装 IronPDF 库。
Install-Package IronPdf

C# Convert PDF to Text(代码示例),图 2:NuGet Package Manager Console UI 中显示的安装进度

NuGet 软件包管理器控制台用户界面中显示的安装进度

方法 3:使用 DLL 文件

您可以下载 DLL 文件 从 Iron Software 网站下载。下载完成后,请在项目中将其用作参考。

访问 安装页面 获取更详细的安装指南。

IronPDF 库的安装现已完成。以下步骤将指导您将 PDF 文件转换为文本文件。

第 3 步:添加 IronPDF 命名空间

要使用 IronPDF,必须在每个代码文件中添加 IronPDF 命名空间。在每个相关代码文件的顶部写入以下一行代码。这样您就可以在程序中使用 IronPDF 的功能了。

using IronPdf;
using IronPdf;
Imports IronPdf
VB   C#

第 4 步:将 PDF 文档转换为文本文件

现在,我们必须将 PDF 文件转换为 TXT 文件或仅提取文本。因此,请在代码文件中编写以下示例代码:

using IronPdf;
using System.Drawing;

// Extracting image and text content from PDF Document

// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
Console.WriteLine(allText);
using IronPdf;
using System.Drawing;

// Extracting image and text content from PDF Document

// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
Console.WriteLine(allText);
Imports IronPdf
Imports System.Drawing

' Extracting image and text content from PDF Document

' Open a 128-bit encrypted PDF
Private PdfDocument As using
' Get all text to put in a search index
Private allText As String = pdf.ExtractAllText()
Console.WriteLine(allText)
VB   C#

首先,使用 从文件 功能中的 PDFDocument 类。在参数中输入文件名和密码 (如有).之后,使用 提取所有文本 函数提取 PDF 文件中的所有文本,并将其存储到名为 allText 的变量中。然后,在控制台中显示输出文本

输出

C# 将 PDF 转换为文本(代码示例),图 3:从 PDF 文档中提取的文本

从 PDF 文档中提取的文本

这是 IronPDF 提取的输出文本。这与 PDF 文件上的文本相同,表明 IronPDF 的精确度非常高。

结论

本文展示了如何使用 IronPDF .NET PDF 库从 PDF 文件中轻松提取文本。这只需编写几行代码即可实现,而且准确率很高。此外,IronPDF 还具有许多有用的功能,如 HTML 到 PDF 的转换、PDF 格式化工具以及 PDF 编辑所必需的许多核心 PDF 功能。IronPDF 还消除了对 Adobe Acrobat 的依赖。

IronPDF 可免费用于开发目的,还可提供 免费试用 用于生产测试。IronPDF 提供多种定价方案,您可以根据自己的需求进行选择。与竞争对手相比,IronPDF 的价格相对较低。从个人到大型公司,价格各不相同,因此它的性能令人印象深刻,是一款值得购买的产品。

C# 将 PDF 转换为文本(代码示例),图 4:Iron 软件套件的定价计划

Iron 软件套件的定价计划

此外,Iron Software 还提供包含五个 Iron 软件包的套餐,价格仅为两个套餐的价格。请访问 许可页面 了解更多详情。

< 前一页
将字节数组保存为PDF C#(代码示例)
下一步 >
如何将多页扫描成一个 PDF 文件

准备开始了吗? 版本: 2024.10 刚刚发布

免费NuGet下载 总下载量: 11,108,738 查看许可证 >