使用IRONPDF

如何在C#中逐行读取PDF

发布 2024年四月29日
分享:

你可能认为 PDF 是静态文档,但它们正变得越来越动态。在 PDF 的帮助下,你可以制作出既能互动又能共享的文档。您可以通过阅读 Adobe 网站 Acrobat SDK 中的 "便携式文档格式参考 "来了解 PDF 的结构。以编程方式制作 PDF 最常见的两个原因是

1.适用于需要图形和格式的通讯和其他数字出版物,而印刷就绪的 PDF 无法满足这些要求。

2.在电子书或数字杂志中创建互动性。

以编程方式阅读 PDF 文件是一项艰巨的任务,因为从 PDF 文件中提取文本并不简单。PDF 的结构复杂,尤其是它还可能包含图像。那么,如果开发人员需要在不使用 Adobe Acrobat 的情况下从 PDF 文件中逐行提取文本,该如何解决呢?答案就是 IronPDF C# PDF 库。本教程将介绍如何使用 IronPDF C# 库以 C# 编程方式读取 PDF 文件。

如何在 C&num 中逐行阅读 PDF;

本文内容如下:

1.IronPDF:C# PDF 库

2.阅读 PDF 文档的步骤

3.在 Visual Studio 中创建 C# 项目

  1. 使用 NuGet 软件包管理器安装 IronPDF 库

5.编写读取 PDF 文件的代码

6.结论:读取 PDF 文件的最佳库

IronPDF:PDF 库

IronPDF 是一个 .NET PDF 库,它为开发人员提供了一种简单而强大的生成和读取 PDF 文件的方法。它从设计之初就兼容 .NET Core、ASP.NET Core 和 .NET Standard。

IronPDF 为开发人员提供了丰富的 API,用于创建、操作和生成 PDF 文件。开发人员可以使用其直观的 API 以编程方式创建新的 PDF 文件或打开现有的 PDF 文件。该库支持各种文档,如图像、视频、文本文档和在 PDF 文档中生成的矢量图形。

让我们看看如何使用 IronPDF 逐行读取 PDF 文档。

在 Visual Studio 中创建一个 C# 项目

我将使用 Visual Studio 2022 创建 C# 项目。任何版本都可以使用,但为了获得更好的体验,建议使用最新版本。IronPDF 与微软最新版本的 .NET 6 框架配合良好。

接下来,按照以下步骤在 Microsoft Visual Studio 中创建一个 C# 项目:

1.打开 Visual Studio 2022。

2.点击底部的 "创建新项目 "按钮。

3.为本教程选择 "控制台应用程序 "模板。您可以根据自己的要求使用任何模板。

4.为项目命名。

5.选择.NET 6 框架,因为它是最新的框架,并具有扩展支持。

6.点击 "创建 "按钮。

按照上述步骤,你就能在 Visual Studio 中轻松创建一个 C# 项目。现在是安装 IronPDF 库的时候了。你可以使用现有的项目来安装 IronPDF 库。你必须打开一个任务并安装该库。在下一节中,我们将学习如何安装 IronPDF 库。

安装 IronPDF 库

IronPDF 支持以多种方式安装 IronPDF 库。IronPDF 是一个可以在多种场景中使用的库。您可以使用 NuGet 软件包安装该程序,然后通过软件包管理器控制台使用它。只需运行以下命令,IronPDF 库就会安装到你的项目中:

Install-Package IronPDF

您也可以下载 IronPDF C# 库,并将 ZIP 文件解压到硬盘上的任意文件夹,无需安装。首先,打开要安装 IronPDF 的 Visual Studio 项目。进入集成开发环境后,在 "解决方案资源管理器 "中点击 "项目引用",然后点击 "添加引用"。搜索并选择我们之前下载的 "IronPDF "压缩包。单击 "确定 "按钮,IronPDF 将作为引用添加到项目中。

现在,我们的项目已经为 IronPDF 做好了准备。让我们开始编写逐行读取 PDF 文档的代码。

编写读取 PDF 文件的代码

现在,我将向你展示如何只用两行代码就能读取 PDF 文件。IronPDF 的功能非常出色,也非常高效。让我们来看一个代码示例:

using IronPdf;
using System.Drawing;
//Select the Desired PDF File
using PdfDocument PDF = PdfDocument.FromFile("test.pdf");
//Using ExtractAllText() method, extract every single text from an pdf
string line = PDF.ExtractAllText();
//Get all Images
IEnumerable<Image> AllImages = PDF.ExtractAllImages();
//View text in an Label or textbox
Console.WriteLine(line);
using IronPdf;
using System.Drawing;
//Select the Desired PDF File
using PdfDocument PDF = PdfDocument.FromFile("test.pdf");
//Using ExtractAllText() method, extract every single text from an pdf
string line = PDF.ExtractAllText();
//Get all Images
IEnumerable<Image> AllImages = PDF.ExtractAllImages();
//View text in an Label or textbox
Console.WriteLine(line);
Imports IronPdf
Imports System.Drawing
'Select the Desired PDF File
Private PdfDocument As using
'Using ExtractAllText() method, extract every single text from an pdf
Private line As String = PDF.ExtractAllText()
'Get all Images
Private AllImages As IEnumerable(Of Image) = PDF.ExtractAllImages()
'View text in an Label or textbox
Console.WriteLine(line)
VB   C#

上述代码可以帮助我们读取 PDF 文件。在 "FromFile"参数中,我们给出了输入 PDF 文件的路径。然后,ExtractAllText 函数会从测试 PDF 的所有页面中提取文本。我们可以将文本保存到文本文件中,也可以将其显示在控制台中。您可以在 IronPDF 网站.我们可以以函数的形式编写下面的函数,以便在程序的任何地方使用,就像这样:

private void Extract()
{
    // Select the Desired PDF File
    using PdfDocument PDF = PdfDocument.FromFile("any.pdf");
    //Using ExtractAllText() method, extract every single text from an pdf
    string line = PDF.ExtractAllText();
    //View text in the console
    Console.WriteLine(line);
}
private void Extract()
{
    // Select the Desired PDF File
    using PdfDocument PDF = PdfDocument.FromFile("any.pdf");
    //Using ExtractAllText() method, extract every single text from an pdf
    string line = PDF.ExtractAllText();
    //View text in the console
    Console.WriteLine(line);
}
Private Sub Extract()
	' Select the Desired PDF File
	Using PDF As PdfDocument = PdfDocument.FromFile("any.pdf")
		'Using ExtractAllText() method, extract every single text from an pdf
		Dim line As String = PDF.ExtractAllText()
		'View text in the console
		Console.WriteLine(line)
	End Using
End Sub
VB   C#

让我们看看 IronPDF 生成的输出结果。

输出文本

如何在 C# 中逐行读取 PDF:图 1

IronPDF 可完美提取文本,不会出现错误。效果一流。

结论:阅读 PDF 的最佳图书馆

许多开发人员在其软件或其他程序中使用不同的 PDF 阅读库。有多种库可用于操作和读取 PDF 文件。不过,IronPDF 是所有涉及 PDF 操作的最佳库。

许多行业和领域都使用 PDF 生成程序来生成和打印 PDF 文档。市场上的许多库,如 PDF Sharp 库和许多其他 .NET 库,都能让您用自己的内容快速创建 PDF。但是,程序化生成 PDF 的最佳库是 IronPDF。IronPDF 提供许多功能,包括加密、密码保护和将 MS Office 格式转换为 PDF。有了 IronPDF,您可以使用这些强大的工具轻松创建 PDF 文档。

IronPDF 是一个免费库,但您必须付费才能将其用于商业用途。您可以在 30 天的试用期内对其进行生产测试。IronPDF 的价格非常实惠,目前您只需支付两个软件的费用,就可以购买一整套 5 种不同的软件。您可以在 IronPDF 许可证页面找到有关定价计划的所有信息。

< 前一页
如何使用C#将PDF转换为位图
下一步 >
如何在C#中创建报表应用程序

准备开始了吗? 版本: 2024.9 刚刚发布

免费NuGet下载 总下载量: 10,731,156 查看许可证 >