在实际环境中测试
在生产中测试无水印。
随时随地为您服务。
本文概述了.NET 开发人员将 PDF 文件转换为 TXT 格式以便更有效访问的过程。
第 2 步:安装 IronPDF 库
方法 1:NuGet 包管理器
IronPDF 是一个用于生成 PDF 的 .NET 库。它是一个本地 .NET 库,不依赖于外部 DLL 或其他工具。IronPDF 是一个用 C# 和 .NET 编写的跨平台库,提供处理 PDF 文档所需的所有功能。它包含文档渲染、表单编辑、文本提取、文件加密以及其他功能。所有这些操作都可通过直观的 API 执行,该 API 已在 Windows Forms、WPF、ASP.NET MVC 等各种平台上进行了广泛测试。
当前版本的 IronPDF 提供了对这些功能的简单访问:
只读访问 到文档内部 (视图、导航、注释):
进入 元数据和文件属性 (标题、关键词、作者、主题):
IronPDF 还包含一些额外的辅助类,可帮助实现以下功能 将 HTML 文档转换为完全格式化的 PDF 文件 文本提取。IronPDF 提供了非常简单的应用程序接口,可将 PDF 转换为文本文件。
让我们从如何使用 IronPDF 库将 PDF 文档转换为文本文件开始。
第一步是在 Visual Studio 中创建一个 C# 项目。您可以根据需要选择任何 C# 应用程序模板。为简单起见,本教程将使用控制台应用程序模板。您可以使用已有的 C# 项目将 PDF 转换为 TXT 文件。
在 Visual Studio 中创建 C# 项目或打开现有项目。建议使用最新版本的 Visual Studio,以便顺利开展工作。按照给出的步骤在 Visual Studio 中创建 C# 项目。
1.打开 Visual Studio。
2.选择 C# 控制台应用程序模板或打开现有项目。
3.为项目命名。
4.选择 .NET Framework 6.0 版本。这是最新、最稳定的 .NET 框架,但您也可以根据需要选择任何其他 .NET 框架。
IronPDF 还具有简便的安装过程,可加快开发时间并减少混乱。IronPDF 库提供多种安装方式:
要使用 NuGet 包管理器,请按照给出的步骤打开 "包管理器 "选项卡。
打开 C# 项目,然后点击 Tools > NuGet Package Manager > Manage NuGet Packaged for the solution。
导航至 NuGet 软件包管理器
从 NuGet 软件包管理器的搜索结果中IronPdf 软件包
使用软件包管理器控制台安装 IronPDF 库是最简单的方法。请按照以下简单步骤操作:
Install-Package IronPdf
NuGet 软件包管理器控制台用户界面中显示的安装进度
您可以下载 DLL 文件 从 Iron Software 网站下载。下载完成后,请在项目中将其用作参考。
访问 安装页面 获取更详细的安装指南。
IronPDF 库的安装现已完成。以下步骤将指导您将 PDF 文件转换为文本文件。
要使用 IronPDF,必须在每个代码文件中添加 IronPDF 命名空间。在每个相关代码文件的顶部写入以下一行代码。这样您就可以在程序中使用 IronPDF 的功能了。
using IronPdf;
using IronPdf;
Imports IronPdf
第 4 步:将 PDF 文档转换为文本文件
现在,我们必须将 PDF 文件转换为 TXT 文件或仅提取文本。因此,请在代码文件中编写以下示例代码:
using IronPdf;
using System.Drawing;
// Extracting image and text content from PDF Document
// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
Console.WriteLine(allText);
using IronPdf;
using System.Drawing;
// Extracting image and text content from PDF Document
// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
Console.WriteLine(allText);
Imports IronPdf
Imports System.Drawing
' Extracting image and text content from PDF Document
' Open a 128-bit encrypted PDF
Private PdfDocument As using
' Get all text to put in a search index
Private allText As String = pdf.ExtractAllText()
Console.WriteLine(allText)
首先,使用 从文件 功能中的 PDFDocument 类。在参数中输入文件名和密码 (如有).之后,使用 提取所有文本 函数提取 PDF 文件中的所有文本,并将其存储到名为 allText
的变量中。然后,在控制台中显示输出文本
从 PDF 文档中提取的文本
这是 IronPDF 提取的输出文本。这与 PDF 文件上的文本相同,表明 IronPDF 的精确度非常高。
本文展示了如何使用 IronPDF .NET PDF 库从 PDF 文件中轻松提取文本。这只需编写几行代码即可实现,而且准确率很高。此外,IronPDF 还具有许多有用的功能,如 HTML 到 PDF 的转换、PDF 格式化工具以及 PDF 编辑所必需的许多核心 PDF 功能。IronPDF 还消除了对 Adobe Acrobat 的依赖。
IronPDF 可免费用于开发目的,还可提供 免费试用 用于生产测试。IronPDF 提供多种定价方案,您可以根据自己的需求进行选择。与竞争对手相比,IronPDF 的价格相对较低。从个人到大型公司,价格各不相同,因此它的性能令人印象深刻,是一款值得购买的产品。
Iron 软件套件的定价计划
此外,Iron Software 还提供包含五个 Iron 软件包的套餐,价格仅为两个套餐的价格。请访问 许可页面 了解更多详情。