跳至页脚内容
使用IRONPDF

如何在C#中逐行读取PDF

您可能认为PDF是静态文档,但它们变得越来越动态。 借助PDF,您可以制作既具有互动性又可以共享的文件。 通过阅读Adobe网站上的Acrobat SDK中的《可移植文档格式参考》,您可以了解PDF的结构。以编程方式制作PDF的两个最常见原因是:

  1. 用于需要图形和格式但无法通过打印就绪PDF完成的时事通讯和其他数字出版物。
  2. 在电子书或数字杂志中创建交互性。

以编程方式读取PDF文件是一项困难的任务,因为从PDF文件中提取文本并不简单。 PDF的结构是复杂的,尤其是它还可以包含图像。 那么,开发人员如果需要逐行从PDF文件中获取文本而不使用Adobe Acrobat,该怎么办? 答案是IronPDF C# PDF库。 本教程将介绍如何使用IronPDF C#库以编程方式读取PDF文件。

如何在C#中逐行读取PDF

本文内容如下:

  1. IronPDF:一个C# PDF库
  2. 阅读PDF文档的步骤
  3. 在Visual Studio中创建C#项目
  4. 使用NuGet包管理器安装IronPDF库
  5. 编写代码读取PDF文件
  6. 结论:阅读PDF的最佳库

IronPDF:一个C# PDF库

IronPDF是一个.NET PDF库,为开发人员提供了一种简单而强大的生成和读取PDF文件的方法。 它从头开始设计,兼容.NET Core、ASP.NET Core和.NET Standard。

IronPDF为开发人员提供了丰富的API用于创建、操作和生成PDF文件。 开发人员可以使用其直观的API以编程方式创建新PDF文件或打开现有文件。 该库支持多种文档,如在PDF文档中生成的图像、视频、文本文档和矢量图形。

让我们看看如何使用IronPDF逐行读取PDF。

在Visual Studio中创建C#项目

我将使用Visual Studio 2022来创建C#项目。 任何版本都应能使用,但建议使用最新版本以获得更好的体验。 IronPDF与微软框架的最新版本.NET 6协作良好。如果需要延长支持和稳定性,建议使用此框架。

接下来,按照以下步骤在Microsoft Visual Studio中创建C#项目:

  1. 打开Visual Studio 2022。
  2. 在底部点击“创建新项目”按钮。
  3. 为本教程选择“控制台应用程序”模板。 您可以根据需要选择任何模板。
  4. 为项目提供一个合适的名称。
  5. 选择.NET 6框架,因为这是最新版本并且有延长支持。
  6. 点击“创建”按钮。

按照上述步骤,您将能够轻松地在Visual Studio中创建一个C#项目。 现在是安装IronPDF库的时候了。 您可以使用现有项目来使用IronPDF库。 您必须打开任务并安装库。 在下一节中,我们将学习如何安装IronPDF库。

安装IronPDF库

IronPDF支持多种方式安装IronPDF库。 IronPDF是一个库,允许您在多种场景中使用它。 您可以通过NuGet包安装程序安装程序,然后通过包管理器控制台利用它。 只需运行以下命令,IronPDF库将会安装在您的项目中:

Install-Package IronPdf

或者,您可以通过下载和解压缩ZIP文件到硬盘上的任何文件夹来获得IronPDF C#库—无需安装。 首先,打开您想要安装IronPDF的Visual Studio项目。 进入IDE后,在解决方案资源管理器中点击项目引用,然后点击添加引用。 搜索并选择我们之前下载的“IronPDF”zip。 点击“OK”按钮,IronPDF将作为引用添加到项目中。

现在,我们的项目已准备好使用IronPDF。 让我们开始编写代码,逐行读取PDF文档。

编写代码读取PDF文件

现在我将向您展示如何用两行代码读取PDF文件。 IronPDF功能出色且非常高效。 让我们看看一个代码示例:

using IronPdf;
using System.Drawing;

// Select the Desired PDF File
using PdfDocument PDF = PdfDocument.FromFile("test.pdf");

// Using ExtractAllText() method to extract all text from the PDF
string line = PDF.ExtractAllText();

// Get all Images
IEnumerable<Image> AllImages = PDF.ExtractAllImages();

// View text in the console
Console.WriteLine(line);
using IronPdf;
using System.Drawing;

// Select the Desired PDF File
using PdfDocument PDF = PdfDocument.FromFile("test.pdf");

// Using ExtractAllText() method to extract all text from the PDF
string line = PDF.ExtractAllText();

// Get all Images
IEnumerable<Image> AllImages = PDF.ExtractAllImages();

// View text in the console
Console.WriteLine(line);
Imports IronPdf
Imports System.Drawing

' Select the Desired PDF File
Private PdfDocument As using

' Using ExtractAllText() method to extract all text from the PDF
Private line As String = PDF.ExtractAllText()

' Get all Images
Private AllImages As IEnumerable(Of Image) = PDF.ExtractAllImages()

' View text in the console
Console.WriteLine(line)
$vbLabelText   $csharpLabel

上面的代码帮助我们读取PDF文件。在FromFile参数中,我们提供输入PDF文件的路径。然后,ExtractAllText函数从测试PDF的所有页面中提取文本。 我们可以将文本保存在文本文件中或显示在控制台中。 您可以在IronPDF文本提取示例页面上查看更多教程。 我们可以将下面的函数写成一个函数,以便在程序的任何地方使用,如下所示:

private void Extract()
{
    // Select the Desired PDF File
    using PdfDocument PDF = PdfDocument.FromFile("any.pdf");

    // Using ExtractAllText() method to extract all text from the PDF
    string line = PDF.ExtractAllText();

    // View text in the console
    Console.WriteLine(line);
}
private void Extract()
{
    // Select the Desired PDF File
    using PdfDocument PDF = PdfDocument.FromFile("any.pdf");

    // Using ExtractAllText() method to extract all text from the PDF
    string line = PDF.ExtractAllText();

    // View text in the console
    Console.WriteLine(line);
}
Private Sub Extract()
	' Select the Desired PDF File
	Using PDF As PdfDocument = PdfDocument.FromFile("any.pdf")
	
		' Using ExtractAllText() method to extract all text from the PDF
		Dim line As String = PDF.ExtractAllText()
	
		' View text in the console
		Console.WriteLine(line)
	End Using
End Sub
$vbLabelText   $csharpLabel

让我们看看IronPDF生成的输出。

输出文本

如何在C#中逐行读取PDF:图1

IronPDF完美地提取文本,没有错误。 结果是一流的。

结论:PDF阅读的最佳库

许多开发人员在其软件或其他程序中使用不同的PDF阅读库。 有多种库可用于操作和读取PDF文件。 然而,IronPDF是所有涉及PDF的操作的最佳库。

许多行业和领域使用PDF生成程序生成和打印PDF文档。 市场上有许多库,如PDF Sharp库和许多其他.NET库,允许您快速使用您的内容创建PDF。 但是,程序化生成PDF的最佳库是IronPDF。 IronPDF提供了许多功能,包括加密、密码保护和将MS Office格式转换为PDF。 使用IronPDF,您可以轻松地使用这些强大的工具创建PDF文档。

IronPDF是一个免费的库,但您必须支付费用以在商业上使用它。 提供30天的试用期,其中可以在生产中测试。 IronPDF的价格非常实惠,您还可以购买一整套5个不同的软件仅相当于两个软件的费用。 您可以在IronPDF许可页面上找到关于价格计划的所有信息。

常见问题解答

如何在C#中逐行读取PDF文件?

使用IronPDF,您可以通过使用PdfDocument.FromFile()方法打开文件,然后使用ExtractAllText()方法逐行检索文本内容。因此可以逐行读取PDF文件。

使用.NET PDF库读取PDF的好处是什么?

.NET PDF库(如IronPDF)简化了从复杂的PDF结构中读取和提取文本的过程,使开发人员能够轻松地以编程方式处理文档。

我可以使用IronPDF从PDF中提取图像和文本吗?

是的,IronPDF允许您使用其全面的API从PDF文件中提取文本和图像,该API提供了访问PDF内各种元素的方法。

在C#项目中安装IronPDF的最佳方法是什么?

您可以使用NuGet包管理器通过命令Install-Package IronPdf安装IronPDF,或在Visual Studio中将其添加为引用。

是否可以使用.NET库保护PDF文件?

IronPDF支持PDF加密和密码保护,使您能够在C#应用程序中以编程方式保护PDF文档。

以编程方式生成PDF的一些常见用例是什么?

开发人员通常会生成PDF用于数字出版、创建互动内容、共享文档,并确保在不同平台上文档格式一致。

在功能方面,IronPDF与其他PDF库相比如何?

IronPDF因其强大的功能而受到高度评价,包括PDF生成、文本和图像提取、加密和格式转换,使其成为开发人员的首选。

IronPDF可以用于.NET Core应用程序吗?

是的,IronPDF兼容.NET Core、ASP.NET Core和.NET Standard,允许您无缝集成到现代.NET应用程序中。

IronPDF 是否完全兼容 .NET 10?

是的。IronPDF 与 .NET 10 完美兼容,充分利用了新的运行时和语言增强功能。您可以在 .NET 10 项目中直接使用它来读取、写入、转换和编辑 PDF 文件,无需额外配置。

.NET 10 的哪些改进有助于提升 IronPDF 的性能?

.NET 10 提供了诸多增强功能,例如减少内存分配、提升 JIT 性能、改进 ASP.NET Core 特性以及优化运行时性能,IronPDF 可以充分利用这些功能,从而更高效地执行渲染、转换和文本/图像提取等任务。这些优势适用于使用 IronPDF 的桌面、Web 和云应用程序。

Curtis Chau
技术作家

Curtis Chau 拥有卡尔顿大学的计算机科学学士学位,专注于前端开发,精通 Node.js、TypeScript、JavaScript 和 React。他热衷于打造直观且美观的用户界面,喜欢使用现代框架并创建结构良好、视觉吸引力强的手册。

除了开发之外,Curtis 对物联网 (IoT) 有浓厚的兴趣,探索将硬件和软件集成的新方法。在空闲时间,他喜欢玩游戏和构建 Discord 机器人,将他对技术的热爱与创造力相结合。