跳至页脚内容
使用IRONPDF
C# 从PDF提取文本

C#将PDF转换为文本(代码示例)

这篇文章概述了.NET开发人员将PDF文件转换为TXT格式以提高访问效率的过程。

class="hsg-featured-snippet">

如何使用C#将PDF转换为文本文件

  1. 下载将PDF转换为文本的C#库
  2. 在Visual Studio中创建一个新项目
  3. 将库安装到你的项目中
  4. 使用PdfDocument.FromFile函数打开PDF文档
  5. 查看提取的输出文本

教程中涵盖的话题

  • IronPDF
  • 编程生成PDF文件的步骤
  • 步骤1:创建一个C#项目
  • 步骤2:安装IronPDF库
  • 方法1:NuGet包管理器
  • 方法2:NuGet包管理器控制台
  • 方法3:使用DLL文件
  • 步骤3:添加IronPDF命名空间
  • 步骤4:将PDF转换为文本
  • 输出
  • 结论

IronPDF。

IronPDF 是用于PDF生成的.NET库。 它是一个原生的.NET库,不依赖于外部DLL或其他工具。 IronPDF 是一个用C#和.NET编写的跨平台库,提供了处理PDF文档所需的全部功能。 它包含文档渲染、表单编辑、文本提取、文件加密以及其他功能。 所有这些操作都可以通过一个在Windows Forms、WPF、ASP.NET MVC等多种平台上经过广泛测试的直观API来完成。

IronPDF的当前版本提供了这些功能的简单访问:

只读访问文档内部(查看、导航、注释):

访问元数据和文档属性(标题、关键词、作者、主题):

IronPDF还包含一些额外的辅助类,以帮助将HTML文档转换为格式完好的PDF文件并带有文本提取功能。 IronPDF 提供了非常简单的API来将PDF转换为文本文件。

让我们开始学习如何使用IronPDF库将PDF文档转换为文本文件。

将PDF文档转换为文本文件的步骤

第一步是在Visual Studio中创建一个C#项目。 您可以根据需要选择任何C#应用程序模板。 为了简便起见,本教程将使用控制台应用程序模板。 您可以使用现有的C#项目来进行PDF到TXT文件的转换。

步骤1:创建一个C#项目

在Visual Studio中创建一个C#项目或打开现有项目。 建议使用最新版本的Visual Studio以确保顺利工作。 按照给出的步骤在Visual Studio中创建一个C#项目。

  1. 打开 Visual Studio。
  2. 选择C#控制台应用程序模板或打开现有项目。
  3. 为项目命名一个合适的名称。
  4. 选择.NET Framework版本6.0。这是.NET的最新和最稳定的框架,但您可以根据需要选择其他.NET Framework。

步骤2:安装IronPDF库

IronPDF还具有简单的安装过程,可以加快开发时间并减少混淆。 IronPDF库提供多种安装方式:

  • 使用NuGet包管理器
  • 使用NuGet包管理器 Console
  • 通过DLL文件

方法1:NuGet包管理器

要使用NuGet包管理器,请按照给出的步骤打开包管理器选项卡。

打开C#项目,然后点击工具 > NuGet包管理器 > 为解决方案管理NuGet包

C# 将PDF转换为文本(代码示例),图0:导航到NuGet包管理器 导航到NuGet包管理器

  • 现在转到浏览标签页,搜索IronPDF
  • 从搜索结果中选择IronPDF,并点击安装。 这将安装IronPDF库,使项目可以与IronPDF库一起使用。

C# 将PDF转换为文本(代码示例),图1:NuGet包管理器的搜索结果中的IronPdf包 NuGet包管理器的搜索结果中的IronPdf包

方法2:NuGet包管理器控制台

使用包管理器控制台安装IronPDF库是最简单的方法。 请按以下简单步骤操作:

  • 打开包管理器控制台。
  • 在控制台中输入以下行代码并按回车。 这将立即安装IronPDF库。
Install-Package IronPdf

C# 将PDF转换为文本(代码示例),图2:NuGet包管理器控制台UI中的安装进度 NuGet包管理器控制台UI中的安装进度

方法3:使用DLL文件

您可以从Iron Software网站下载IronPDF DLL文件。下载完成后,将其作为引用用于您的项目。

访问IronPDF安装指南以获得更详细的安装指南。

IronPDF库的安装现在已完成。 以下步骤将指导您将PDF文件转换为文本文件。

步骤3:添加IronPDF命名空间

使用IronPDF时,必须在每个代码文件中添加IronPDF命名空间。在每个相关代码文件的顶部写上以下行代码。这将使您能够在程序中使用IronPDF的特性。

using IronPdf;
using IronPdf;
Imports IronPdf
$vbLabelText   $csharpLabel

步骤4:将PDF文档转换为文本文件

现在我们要将PDF文件转换为TXT文件或仅提取文本。 因此,将以下示例代码写入您的代码文件:

using IronPdf;
using System;

class Program
{
    static void Main()
    {
        // Extracting image and text content from PDF Document

        // Open a 128-bit encrypted PDF
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Get all text to put in a search index
        string allText = pdf.ExtractAllText();

        // Display the extracted text in the console
        Console.WriteLine(allText);
    }
}
using IronPdf;
using System;

class Program
{
    static void Main()
    {
        // Extracting image and text content from PDF Document

        // Open a 128-bit encrypted PDF
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Get all text to put in a search index
        string allText = pdf.ExtractAllText();

        // Display the extracted text in the console
        Console.WriteLine(allText);
    }
}
Imports IronPdf
Imports System

Friend Class Program
	Shared Sub Main()
		' Extracting image and text content from PDF Document

		' Open a 128-bit encrypted PDF
		Using pdf As PdfDocument = PdfDocument.FromFile("encrypted.pdf", "password")
	
			' Get all text to put in a search index
			Dim allText As String = pdf.ExtractAllText()
	
			' Display the extracted text in the console
			Console.WriteLine(allText)
		End Using
	End Sub
End Class
$vbLabelText   $csharpLabel

First, open the PDF document using the FromFile function from the PdfDocument class. 在参数中,传入文件名和密码(如果有)。 之后,使用ExtractAllText 函数提取PDF文件中的所有文本,并将其存储在名为allText的变量中。 接下来,在控制台中显示输出文本。

输出

C# 将PDF转换为文本(代码示例),图3:从PDF文档中提取的文本 从PDF文档中提取的文本

这是IronPDF提取的输出文本。 它与PDF文件上看到的文本相同,展示了IronPDF的精确度非常高。

结论

这篇文章展示了如何使用IronPDF.NET PDF库轻松从PDF文件中提取文本。 这只需要写几行代码并具备高准确率即可实现。 此外,IronPDF还具有许多实用功能如HTML到PDF转换、PDF格式工具,以及更多核心PDF功能,这些对于PDF编辑至关重要。 IronPDF还消除了对Adobe Acrobat的依赖。

IronPDF在开发目的下是免费的,还提供了用于生产测试的免费试用版。 IronPDF提供了多种定价计划,您可以根据需要选择。 与竞争对手相比,IronPDF的价格相对比较便宜。 从个人到大型公司,公司价格的变化显示了它是一项令人信服的购买,拥有令人印象深刻的性能。

C# 将PDF转换为文本(代码示例),图4:Iron Software套件的定价计划 Iron Software套件的定价计划

此外,Iron Software提供了一套五个Iron Software包,仅需两个的价格。 请访问Iron Software许可详情以获得更多信息。

常见问题解答

我如何在C#应用程序中将PDF文档转换为文本?

您可以使用IronPDF在C#应用程序中将PDF文档转换为文本,通过使用PdfDocument.FromFile方法加载PDF,然后调用ExtractAllText方法来检索文本内容。

在Visual Studio C#项目中设置IronPDF的过程是什么?

要在Visual Studio C#项目中设置IronPDF,您需要创建一个新项目,通过NuGet包管理器、包管理器控制台或手动添加DLL安装IronPDF,并在代码文件中包含IronPDF命名空间。

IronPDF能处理加密的PDF文件吗?

是的,IronPDF可以打开和处理加密的PDF文件,使您能够从中提取文本内容。

将PDF转换为TXT格式的好处是什么?

使用IronPDF将PDF转换为TXT格式可以提高可访问性,并更轻松地操作文本数据,这对于需要文本处理或搜索的应用程序非常有利。

IronPDF如何确保从PDF中提取文本的准确性?

IronPDF通过保持文本在PDF中显示的完整性来确保高准确性的文本提取,为进一步处理提供可靠的输出。

IronPDF库是否有免费试用版可供测试?

是的,IronPDF提供免费试用版供开发和测试使用,使您能够在购买前评估其功能和特性。

是什么让IronPDF成为跨平台开发的合适选择?

IronPDF是用C#和.NET编写的,使其成为不需要额外外部工具的跨平台开发合适选择。

IronPDF是否可以用于除文本提取之外的其他用途?

是的,IronPDF提供多种文本提取以外的功能,包括PDF生成、文档加密、表单处理和HTML到PDF转换。

IronPDF 对 .NET 10 的 PDF 转文本支持程度如何?

IronPDF 与 .NET 10 完全兼容,无需任何特殊配置即可开箱即用。在 .NET 10 中使用 IronPDF 将 PDF 转换为文本时,您可以受益于性能提升,例如减少堆内存分配和运行时增强功能,从而加快提取速度并降低内存占用。

使用 IronPDF 和 .NET 10 时支持哪些平台和项目类型?

IronPDF for .NET 10 支持多种平台,包括 Windows(10+、Server)、macOS、Linux 和容器环境。它适用于控制台、桌面(WPF、MAUI)、Web(MVC、Blazor)等项目类型,并支持 C#、F# 和 VB.NET 等编程语言。

Curtis Chau
技术作家

Curtis Chau 拥有卡尔顿大学的计算机科学学士学位,专注于前端开发,精通 Node.js、TypeScript、JavaScript 和 React。他热衷于打造直观且美观的用户界面,喜欢使用现代框架并创建结构良好、视觉吸引力强的手册。

除了开发之外,Curtis 对物联网 (IoT) 有浓厚的兴趣,探索将硬件和软件集成的新方法。在空闲时间,他喜欢玩游戏和构建 Discord 机器人,将他对技术的热爱与创造力相结合。