产品比较

iText7 在 C# 中读取 PDF 的替代方案（VS IronPDF）

Name: IronPDF
Brand: Iron Software
Availability: InStock
Rating: 4.87 (307 reviews)

奇佩戈-卡琳达

2023年六月20日

PDF 是一种由 Adobe Acrobat Reader 创建的可移植文件格式，广泛用于在互联网上以数字方式共享信息。它保留了数据格式，并提供设置安全权限和密码保护等功能。作为 C# 开发人员，您可能遇到过需要将 PDF 功能集成到软件应用程序中的情况。从头开始构建可能是一项耗时而乏味的任务。因此，考虑到应用程序的性能、效果和效率，在从头开始创建新服务还是使用预建库之间进行权衡就显得尤为重要。

有几个 PDF 库可供 C# 使用。在本文中，我们将探讨两个最流行的 PDF 库，用于用 C# 阅读 PDF 文档。

iText 软件

iText 7，前称为iText 7 Core，是一个用于在.NET C#和Java中编程PDF文档的PDF库。它可作为开源许可证（AGPL）提供，并可用于商业应用程序。

iText Core 是一个高级 API，提供了以各种可能方式生成和编辑 PDF 的简便方法。使用 iText 7 Core，您可以对 PDF 文件进行分割、合并、注释、填写表格、数字签名等操作。 iText 7 提供一个HTML 到 PDF 转换器。

IronPDF

了解更多关于 IronPDF 是一个 .NET 和 .NET Framework C# 和 Java API，用于通过 URL、HTML 文件或 HTML 字符串从 HTML、CSS 和 JavaScript 生成 PDF 文档。 IronPDF 允许您处理现有的 PDF 文件，如分割、合并、注释、数字签名等。

IronPdf 具有 50 多种创建、阅读和编辑 PDF 文件的功能。当您需要使用 Adobe Acrobat Reader 交付高质量、像素完美的专业 PDF 文件时，它将优先考虑速度、易用性和准确性。 API 文档齐全，代码示例页面上可以找到许多示例源代码。

创建控制台应用程序

首先，我们将使用 Visual Studio 2022 IDE 创建一个应用程序。 Visual Studio 是用于 C# 开发的官方集成开发环境，您必须安装它。如果尚未安装，您可以从Microsoft Visual Studio 网站下载。

以下步骤将创建一个名为 "DemoApp "的新项目。

打开 Visual Studio，点击 "创建新项目"。
Itext7 用 C# 读取 PDF 的替代方案 (VS IronPDF) 图 1 - 新项目
选择 "控制台应用程序"，然后点击 "下一步"。
设置项目名称。
选择 .NET 版本。选择稳定版本 .NET 6.0。

安装 IronPDF 库

项目创建后，需要在项目中安装 IronPDF 库才能使用。请按照以下步骤安装。

从解决方案资源管理器或工具中打开 NuGet 包管理器。
浏览 IronPDF Library 并为当前项目选择它。点击安装。
在 Program.cs 文件顶部添加以下命名空间

using IronPdf;

using IronPdf;

Imports IronPdf

$vbLabelText $csharpLabel

安装 iText 7 库

项目创建后，需要在项目中安装 iText 7 库才能使用。按照步骤进行安装。

从解决方案资源管理器或工具中打开 NuGet 包管理器。
浏览 iText 7 库并为当前项目选择该库。点击安装。
在 Program.cs 文件顶部添加以下命名空间

using iText.Kernel.Pdf.Canvas.Parser.Listener;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf;

using iText.Kernel.Pdf.Canvas.Parser.Listener;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf;

Imports iText.Kernel.Pdf.Canvas.Parser.Listener
Imports iText.Kernel.Pdf.Canvas.Parser
Imports iText.Kernel.Pdf

$vbLabelText $csharpLabel

打开 PDF 文件

我们将使用以下 PDF 文件提取其中的文本。这是一份两页的 PDF 文件。

Itext7 在 C# 中读取 PDF 的替代方案（VS IronPDF）图 9

使用 iText 库

使用 iText 库打开 PDF 文件需要两个步骤。首先，我们创建一个PdfReader对象，并将文件位置作为参数传递。然后我们使用PdfDocument类来创建一个新的PDF文档。代码如下

PdfReader pdfReader = new PdfReader("sample.pdf");
PdfDocument pdfDoc = new PdfDocument(pdfReader);

PdfReader pdfReader = new PdfReader("sample.pdf");
PdfDocument pdfDoc = new PdfDocument(pdfReader);

Dim pdfReader As New PdfReader("sample.pdf")
Dim pdfDoc As New PdfDocument(pdfReader)

$vbLabelText $csharpLabel

使用IronPDF

使用 IronPDF 打开 PDF 文件非常简单。使用PdfDocument类的FromFile方法从任何文件位置打开PDF。以下单行代码将打开 PDF 文件以读取数据：

var pdf = PdfDocument.FromFile("sample.pdf");

var pdf = PdfDocument.FromFile("sample.pdf");

Dim pdf = PdfDocument.FromFile("sample.pdf")

$vbLabelText $csharpLabel

从 PDF 文件中读取数据

使用 iText7 库

在 iText 7 库中读取 PDF 数据并不那么简单。我们必须手动循环查看 PDF 文档的每一页，从每一页中提取文本。以下源代码有助于从 PDF 文档中逐页提取文本：

for (int page = 1; page <= pdfDoc.GetNumberOfPages(); page++)
{
    ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
    string pageContent = PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(page), strategy);
    Console.WriteLine(pageContent);
}
pdfDoc.Close();
pdfReader.Close();

for (int page = 1; page <= pdfDoc.GetNumberOfPages(); page++)
{
    ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
    string pageContent = PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(page), strategy);
    Console.WriteLine(pageContent);
}
pdfDoc.Close();
pdfReader.Close();

Dim page As Integer = 1
Do While page <= pdfDoc.GetNumberOfPages()
	Dim strategy As ITextExtractionStrategy = New SimpleTextExtractionStrategy()
	Dim pageContent As String = PdfTextExtractor.GetTextFromPage(pdfDoc.GetPage(page), strategy)
	Console.WriteLine(pageContent)
	page += 1
Loop
pdfDoc.Close()
pdfReader.Close()

$vbLabelText $csharpLabel

上面的代码中有很多内容。首先，我们声明文本提取策略，然后使用PdfExtractor类的GetTextFromPage方法来读取文本。该方法接受两个参数：第一个参数是 PDF 文档页面，第二个参数是翻译策略。要获取 PDF 文档页面，使用 PdfDocument 实例调用 GetPage 方法，并传递页面编号作为参数。输出结果以字符串形式返回，然后显示在控制台输出屏幕上。最后，PDFReader 和 PdfDocument 对象被关闭。另外，请查看以下使用iText7从PDF中提取文本的代码示例。

输出

Itext7 在 C# 中读取 PDF 的替代方案 (VS IronPDF) 图 10

使用IronPDF

就像打开 PDF 文件只需一行代码一样，从 PDF 文件中读取文本也只需一行代码。 PDFDocument 类提供了 ExtractAllText 方法来读取 PDF 的全部内容。 Console.WriteLine 用于在屏幕上打印文本。代码如下

string text = pdf.ExtractAllText();
Console.WriteLine(text);

string text = pdf.ExtractAllText();
Console.WriteLine(text);

Dim text As String = pdf.ExtractAllText()
Console.WriteLine(text)

$vbLabelText $csharpLabel

输出

Itext7 在 C# 中读取 PDF 的替代方案（与 IronPDF 相比）图 11

输出准确无误。但是，要使用ExtractAllText方法，您需要拥有许可证，因为它仅在生产模式下工作。您可以从IronPDF 试用许可证页面获取为期30天的试用许可证密钥。

比较

相比之下，这两个库在从 PDF 文档中提取文本时都能提供 100% 的准确结果。在准确性方面，它们是一致的。不过，IronPDF 在性能和代码可读性方面更加高效。

IronPDF 只需两行代码即可完成与 iText 相同的任务。它提供了开箱即用的文本提取方法，无需执行任何额外的逻辑。 iText 代码有点麻烦，你必须关闭在打开 PDF 文档时创建的两个实例。而 IronPDF 会在执行任务后自动清除内存。

摘要

在本文中，我们研究了如何使用 C# 中的 iText 库读取 PDF 文档，然后与 IronPDF 进行了比较。这两个库都能提供准确的结果，并提供多种 PDF 操作方法供使用。您可以使用这两个库创建、编辑和读取 PDF 文件中的数据。

iText 是开放源代码，可免费使用，但有限制条件。它可以获得商业使用许可。 IronPDF 也可以免费使用，并且可以通过许可用于商业活动，同时提供30天免费试用。

下载 IronPDF 并试用。

奇佩戈-卡琳达

立即与工程团队聊天

软件工程师

Chipego 拥有出色的倾听技巧，这帮助他理解客户问题并提供智能解决方案。他在 2023 年加入 Iron Software 团队，此前他获得了信息技术学士学位。IronPDF 和 IronOCR 是 Chipego 主要专注的两个产品，但他对所有产品的了解每天都在增长，因为他不断找到支持客户的新方法。他喜欢 Iron Software 的合作氛围，公司各地的团队成员贡献他们丰富的经验，以提供有效的创新解决方案。当 Chipego 离开办公桌时，你经常可以发现他在看书或踢足球。

< 前一页
如何使用Itextsharp将PDF转换为图像

下一步 >
IronPDF和Foxit PDF SDK的比较