使用IRONPDF

如何在C#中逐行读取PDF

发布 2024年四月29日
分享:

您可能认为 PDF 是静态文档,但它们正变得越来越动态。 在 PDF 的帮助下,您可以制作出既可交互又可共享的文档。 您可以通过阅读 Adobe 网站 Acrobat SDK 中的 "便携式文档格式参考 "来了解 PDF 的结构。以编程方式制作 PDF 最常见的两个原因是

  1. 适用于需要图形和格式的新闻简报和其他数字出版物,而印刷就绪的 PDF 无法满足这些要求。

  2. 在电子书或数字杂志中创建互动性。

    以编程方式阅读 PDF 文件是一项艰巨的任务,因为从 PDF 文件中提取文本并不简单。 PDF 的结构复杂,尤其是还可能包含图片。 那么,如果开发人员需要在不使用 Adobe Acrobat 的情况下从 PDF 文件中逐行获取文本,该如何解决呢? 答案就是 IronPDF C# PDF 库。 本教程将介绍如何使用 IronPDF C# 库以 C# 编程方式读取 PDF 文件。

如何在 C# 中逐行阅读 PDF;

本文内容如下:

  1. IronPDF:一个C# PDF库

  2. 阅读 PDF 文档的步骤

  3. 在 Visual Studio 中创建 C# 项目

    4.使用 NuGet 软件包管理器安装 IronPDF 库

  4. 编写代码以读取 PDF 文件

  5. 结论:阅读 PDF 的最佳库

IronPDF:C# PDF 库

IronPDF for .NET 是一个.NET PDF 库,为开发人员提供了生成和读取 PDF 文件的简单而强大的方法。 它的设计从根本上兼容 .NET Core、ASP.NET Core 和 .NET Standard。

IronPDF 为开发人员提供了丰富的 API,用于创建、操作和生成 PDF 文件。 开发人员可以使用其直观的 API 以编程方式创建新的 PDF 文件或打开现有文件。 该库支持各种文档,如图像、视频、文本文档以及在 PDF 文档中生成的矢量图形。

让我们来看看如何使用 IronPDF 逐行阅读 PDF。

在 Visual Studio 中创建 C# 项目

我将使用 Visual Studio 2022 创建 C# 项目。 您拥有的任何版本都可以使用,但为了获得更好的体验,建议使用最新版本。 IronPDF 可与微软最新版本的 .NET Framework 6 配合使用。如果您需要扩展支持和稳定性,建议使用此框架。

接下来,请按照以下步骤在 Microsoft Visual Studio 中创建一个 C# 项目:

  1. 打开 Visual Studio 2022。

  2. 单击底部的 "创建新项目 "按钮。

  3. 为本教程选择 "控制台应用程序 "模板。 您可以根据自己的要求使用任何模板。

  4. 为项目正名。

  5. 选择 .NET 6 框架,因为它是最新的框架,并具有扩展支持。

  6. 单击 "创建 "按钮。

    按照上述步骤,您就能在 Visual Studio 中轻松创建一个 C# 项目。 现在该安装 IronPDF 库了。 您可以使用现有项目与 IronPDF 库配合使用。 您必须打开一个任务并安装库。 下一节,我们将学习如何安装 IronPDF 库。

安装 IronPDF 库

IronPDF 支持以多种方式安装 IronPDF 库。 IronPdf 是一个库,您可以在各种场景中使用它。 您可以使用 NuGet 软件包安装该程序,然后通过软件包管理器控制台加以利用。 只需运行以下命令,IronPDF 库就会安装到您的项目中:

Install-Package IronPDF

您也可以下载 IronPDF C# 库,并将 ZIP 文件解压缩到硬盘上的任意文件夹中,无需安装。 首先,打开要安装 IronPDF 的 Visual Studio 项目。 进入集成开发环境后,单击解决方案资源管理器中的项目引用,然后单击添加引用。 搜索并选择我们之前下载的 "IronPDF "压缩包。 点击 "确定 "按钮,IronPDF 将作为参考添加到项目中。

现在,我们的项目已经为 IronPDF 做好了准备。 让我们开始编写逐行阅读 PDF 文档的代码。

编写代码以读取 PDF 文件

现在,我将向您展示如何只用两行代码就能读取 PDF 文件。 IronPDF 功能卓越,效率极高。 让我们来看一个代码示例:

using IronPdf;
using System.Drawing;
//Select the Desired PDF File
using PdfDocument PDF = PdfDocument.FromFile("test.pdf");
//Using ExtractAllText() method, extract every single text from an pdf
string line = PDF.ExtractAllText();
//Get all Images
IEnumerable<Image> AllImages = PDF.ExtractAllImages();
//View text in an Label or textbox
Console.WriteLine(line);
using IronPdf;
using System.Drawing;
//Select the Desired PDF File
using PdfDocument PDF = PdfDocument.FromFile("test.pdf");
//Using ExtractAllText() method, extract every single text from an pdf
string line = PDF.ExtractAllText();
//Get all Images
IEnumerable<Image> AllImages = PDF.ExtractAllImages();
//View text in an Label or textbox
Console.WriteLine(line);
Imports IronPdf
Imports System.Drawing
'Select the Desired PDF File
Private PdfDocument As using
'Using ExtractAllText() method, extract every single text from an pdf
Private line As String = PDF.ExtractAllText()
'Get all Images
Private AllImages As IEnumerable(Of Image) = PDF.ExtractAllImages()
'View text in an Label or textbox
Console.WriteLine(line)
VB   C#

上述代码可以帮助我们读取 PDF 文件。在 "FromFile"参数中,我们给出了输入 PDF 文件的路径。然后,ExtractAllText 函数将从测试 PDF 的所有页面中提取文本。 我们可以将文本保存到文本文件中,也可以在控制台中显示。 您可以在IronPDF 文本提取示例页面. 我们可以以函数的形式编写下面的函数,以便在程序的任何地方使用,就像这样:

private void Extract()
{
    // Select the Desired PDF File
    using PdfDocument PDF = PdfDocument.FromFile("any.pdf");
    //Using ExtractAllText() method, extract every single text from an pdf
    string line = PDF.ExtractAllText();
    //View text in the console
    Console.WriteLine(line);
}
private void Extract()
{
    // Select the Desired PDF File
    using PdfDocument PDF = PdfDocument.FromFile("any.pdf");
    //Using ExtractAllText() method, extract every single text from an pdf
    string line = PDF.ExtractAllText();
    //View text in the console
    Console.WriteLine(line);
}
Private Sub Extract()
	' Select the Desired PDF File
	Using PDF As PdfDocument = PdfDocument.FromFile("any.pdf")
		'Using ExtractAllText() method, extract every single text from an pdf
		Dim line As String = PDF.ExtractAllText()
		'View text in the console
		Console.WriteLine(line)
	End Using
End Sub
VB   C#

让我们看看 IronPDF 生成的输出结果。

输出文本

如何在 C# 中逐行读取 PDF:图 1

IronPDF 可完美提取文本,无任何错误。 成果是一流的。

结论阅读 PDF 的最佳库

许多开发人员在其软件或其他程序中使用不同的 PDF 阅读库。 有多个库可用于操作和读取 PDF 文件。 不过,IronPDF 是所有涉及 PDF 操作的最佳库。

许多行业和领域都使用 PDF 生成程序来生成和打印 PDF 文档。 市场上有许多库,如 PDF Sharp 库和许多其他 .NET 库,可以让您快速创建 PDF 内容。 但是,程序化生成 PDF 的最佳库是 IronPDF。 IronPdf 提供许多功能,包括加密、密码保护以及将 MS Office 格式转换为 PDF。 通过 IronPDF,您可以使用这些强大的工具轻松创建 PDF 文档。

IronPdf 是一个免费库,但您必须付费才能将其用于商业用途。 提供 30 天试用期,可在生产中进行测试。 IronPDF 的价格非常实惠,目前您还可以购买一整套 5 种不同软件,只需支付两套软件的费用。 有关定价计划的所有信息,请访问IronPDF许可页面.

< 前一页
如何使用C#将PDF转换为位图
下一步 >
如何在C#中创建报表应用程序

准备开始了吗? 版本: 2024.12 刚刚发布

免费NuGet下载 总下载量: 11,781,565 查看许可证 >