使用IRONPDF

C# 将 PDF 转换为文本(代码示例)

更新 2024年二月8日
分享:

本文概述了.NET 开发人员将 PDF 文件转换为 TXT 格式以便更有效访问的过程。

教程涵盖的主题

  • IronPDF
  • 以编程方式创建 PDF 文件的步骤
  • 步骤 1:创建 C# 项目
  • 第 2 步:安装 IronPDF 库

    • 方法 1:NuGet 软件包管理器

    • 方法 2:NuGet 软件包管理器控制台
  • 方法 3:使用 DLL 文件
  • 第 3 步:添加 IronPDF 命名空间
  • 第 4 步:将 PDF 转换为文本
  • 输出
  • 结论

IronPDF

IronPdf 是一个用于生成 PDF 的 .NET 库。 这是一个本地 .NET 库,不依赖于外部 DLL 或其他工具。 IronPDF 是一个用 C# 和 .NET 编写的跨平台库,提供处理 PDF 文档所需的所有功能。 它包含文档渲染、表单编辑、文本提取、文件加密以及其他功能。 所有这些操作都可以通过直观的 API 执行,该 API 已在 Windows 窗体、WPF、ASP.NET MVC 等各种平台上进行了广泛测试。

当前发布的 IronPDF 可让您轻松访问这些功能:

将 PDF 文档转换为文本文件的步骤

第一步是在 Visual Studio 中创建一个 C# 项目。 您可以根据自己的需要选择任何 C# 应用程序模板。 为简单起见,本教程将使用控制台应用程序模板。 您可以使用已有的 C# 项目将 PDF 转换为 TXT 文件。

步骤 1:创建 C#; 项目

在 Visual Studio 中创建一个 C# 项目或打开一个现有项目。 建议使用最新版本的 Visual Studio,以便顺利开展工作。 按照给出的步骤在 Visual Studio 中创建 C# 项目。

  1. 打开 Visual Studio。

  2. 选择 C# 控制台应用程序模板或打开现有项目。

  3. 为项目正名。

  4. 选择 .NET Framework 6.0 版本。这是最新、最稳定的 .NET Framework,但您也可以根据自己的需要选择其他任何 .NET Framework。

第 2 步:安装 IronPDF 库

IronPdf 还具有安装过程简单的特点,既能加快开发时间,又能减少混乱。 IronPDF 库提供多种安装方式:

  • 使用 NuGet 软件包管理器
  • 使用 NuGet 软件包管理器控制台
  • 由 DLL 文件提供

方法 1:NuGet 软件包管理器

要使用 NuGet 包管理器,请按照给出的步骤打开 "包管理器 "选项卡。

打开 C# 项目,点击 Tools > NuGet Package Manager > Manage NuGet Packaged for the solution

C# 将 PDF 转换为文本(代码示例),图 0:导航至 NuGet 包管理器

导航至 NuGet 软件包管理器

  • 现在进入 "浏览 "选项卡,搜索IronPDF
  • 从搜索结果中选择 IronPdf,然后点击安装。 这将安装 IronPDF 库,允许项目与 IronPDF 库一起使用。

    C# 将 PDF 转换为文本(代码示例),图 1:从 NuGet 软件包管理器的搜索结果中找到 IronPdf 软件包

    来自 NuGet 软件包管理器搜索结果的 IronPdf 软件包

方法 2:NuGet 软件包管理器控制台

使用软件包管理器控制台安装 IronPdf 库是最简单的方法。 请遵循以下简单步骤:

  • 打开软件包管理器控制台。
  • 在控制台中写下以下一行,然后按回车键。 这将立即安装 IronPDF 库。
Install-Package IronPdf

C# Convert PDF to Text(代码示例),图 2:NuGet Package Manager Console UI 中显示的安装进度

NuGet 软件包管理器控制台用户界面中显示的安装进度

方法 3:使用 DLL 文件

您可以下载IronPDF DLL 文件从 Iron Software 网站下载。下载完成后,请在您的项目中将其用作参考。

访问IronPdf 安装指南更详细的安装指南。

IronPDF 库的安装工作现已完成。 以下步骤将指导您将 PDF 文件转换为文本文件。

第 3 步:添加 IronPDF 命名空间

要使用 IronPDF,必须在每个代码文件中添加 IronPDF 命名空间。在每个相关代码文件的顶部写入以下一行代码。它将使您能够在程序中使用 IronPDF 的功能。

using IronPdf;
using IronPdf;
Imports IronPdf
VB   C#

第 4 步:将 PDF 文档转换为文本文件

现在,我们必须将 PDF 文件转换为 TXT 文件或仅提取文本。 因此,请将以下示例代码写入您的代码文件:

using IronPdf;
using System.Drawing;

// Extracting image and text content from PDF Document

// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
Console.WriteLine(allText);
using IronPdf;
using System.Drawing;

// Extracting image and text content from PDF Document

// Open a 128-bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Get all text to put in a search index
string allText = pdf.ExtractAllText();
Console.WriteLine(allText);
Imports IronPdf
Imports System.Drawing

' Extracting image and text content from PDF Document

' Open a 128-bit encrypted PDF
Private PdfDocument As using
' Get all text to put in a search index
Private allText As String = pdf.ExtractAllText()
Console.WriteLine(allText)
VB   C#

首先,使用从文件函数PDFDocument 类. 在参数中输入文件名和密码(如有). 之后,使用ExtractAllText 函数从 PDF 文件中提取所有文本并将其存储在名为 allText 的变量中。 然后,在控制台中显示输出文本

输出

C# 将 PDF 转换为文本(代码示例),图 3:从 PDF 文档中提取的文本

从 PDF 文档中提取的文本

这是 IronPDF 提取的输出文本。 这是 PDF 文件上看到的相同文本,展示了 IronPDF 的准确性非常精确。

结论

本文展示了如何使用 IronPDF for .NET PDF 库轻松提取 PDF 文件中的文本。 要做到这一点,只需编写几行代码,而且准确率很高。 此外,IronPDF 还有许多有用的功能,如 HTML 到 PDF 的转换、PDF 格式化工具以及 PDF 编辑所必须的众多核心 PDF 功能。 IronPdf 还消除了对 Adobe Acrobat 的依赖。

IronPDF 用于开发目的是免费的,还提供一个免费试用用于生产测试。 IronPdf 提供多种定价方案,您可以根据自己的需求进行选择。 IronPDF 的价格相对明显低于其竞争对手。 从个人到大型公司,价格各不相同,这证明它是一种性能令人印象深刻的引人注目的购买方式。

C# 将 PDF 转换为文本(代码示例),图 4:Iron 软件套件的定价计划

Iron Software Suite 的定价计划

此外,Iron Software 还提供五套 Iron Software 套装,价格仅为两套。 请访问Iron Software 许可证详细信息了解更多信息。

< 前一页
将字节数组保存为PDF C#(代码示例)
下一步 >
如何将多页扫描成一个 PDF 文件

准备开始了吗? 版本: 2024.12 刚刚发布

免费NuGet下载 总下载量: 11,781,565 查看许可证 >