使用IRONPDF

C# 读取 PDF 文件:简单教程

更新 2023年十二月2日
分享:

如果您是一名开发人员,在尝试从 PDF 文件读取文本时可能会遇到一些问题。也许以下一种或几种情况适用于你。

1.您正在开发一个应用程序,它将两个 PDF 文档作为输入,并找出文档之间的相似性。

2.您正在开发的应用程序需要 阅读 PDF 文档 并返回字数。

3.您正在开发的应用程序 从 PDF 文件中提取数据 并将其输入结构化数据库。

4.您正在开发的应用程序需要 提取 PDF 文本内容 并将其转换为字符串。

5.在 IronPDF 开发之前,使用 C# 从 PDF 文件中提取数据是一项困难而复杂的任务。

IronPDF 是一个能让开发人员更轻松地读取 PDF 文件的库。

您可以进一步了解 IronPDF 和 Iron 软件套件.

只需两行代码,您就能读取 PDF 文件并在 C# 文本框中显示数据。是的,只需两行代码。您还可以 提取所有图像 在 PDF 文件中。此外,您还可以使用这些图像创建另一个文档,或根据自己的要求在应用程序中显示这些图像。

让我们向您展示如何实现这一点。

我们可以逐步使用该程序选择任何 PDF 文件,然后显示其内容。

以下步骤将向您展示如何用 C# 阅读 PDF 文件:

前提知识:

1.C# 编程基础知识

2.C# 图形用户界面控件基础知识

在设计本教程时,我考虑到即使是没有编程背景的人也能有所收获。

谁应该阅读

任何学习 C# 的新手都应该知道如何 阅读 PDF 文件 因为这是你在职业生涯中一定会用到的东西。

专业开发人员也应该阅读这本书,以便了解 IronPDF 库,它可以帮助我们读取、生成和处理 PDF 文档。

现在,我们如何在项目中使用该库来读取 PDF 文件?

我使用的是 Windows 窗体应用程序进行演示。您可以根据自己的喜好使用控制台应用程序、WPF 应用程序或 ASP.NET 网络应用程序。

IronPDF 库的另一大优势是,它可以与 C# 和 VB.NET 一起使用。

让我们马上开始演示。


步骤#1:创建 Visual Studio 项目

打开 Visual Studio。我使用的是 Visual Studio 2019。

点击 "创建新项目":

C# 阅读 PDF 文件:轻松教程,图 3:创建新项目

创建新项目

现在,从模板中选择 Windows 窗体应用程序,按 "Next(下一步)",然后会出现以下窗口。输入项目名称。我写的是 "使用 IronPDF 阅读 PDF"。

C# 阅读 PDF 文件:轻松教程,图 16:通过 Visual Studio 配置项目

通过 Visual Studio 配置项目

现在,点击 "Next(下一步)",将出现以下窗口。从下拉菜单中选择".NET Core 3.1"。

C# 阅读 PDF 文件:轻松教程,图 9:.NET Core 3.1 版本

.NET Core 3.1 版本

点击 "创建 "按钮,项目将如下图所示创建。

C# 阅读 PDF 文件:轻松教程,图 6:新 Windows 窗体应用程序的初始阶段

新 Windows 窗体应用程序的初始阶段


步骤#2:安装 IronPdf 的 NuGet 软件包

点击菜单栏中的项目菜单,出现一个下拉列表。选择 "管理 NuGet 包 "并点击。将出现以下窗口:

C# 阅读 PDF 文件:轻松教程,图 1:NuGet 包管理器

NuGet软件包管理器

现在,点击 "浏览"。将出现以下窗口:

C# 阅读 PDF 文件:轻松教程,图 2:NuGet 包管理器用户界面

NuGet软件包管理器用户界面

在搜索框中输入 IronPdf,然后按 "Enter"。将出现以下窗口:

C# 阅读 PDF 文件:轻松教程,图 4:NuGet 解决方案

NuGet 解决方案

选择并点击 IronPdf。 将出现以下窗口:

C# 阅读 PDF 文件:轻松教程,图 7:安装免费 IronPdf

安装免费的 IronPdf

按下 "安装 "按钮,等待安装完成。安装成功后将出现以下窗口:

C# 阅读 PDF 文件:轻松教程,图 5:IronPdf for .NET

IronPdf for .NET

按下 "OK "按钮,就可以开始了。

注:下载 NuGet 包还有其他方法。您也可以使用软件包管理器控制台安装 IronPdf;为此,请打开软件包管理器控制台并编写以下代码:

Install-Package IronPdf

您还可以从以下网站下载 NuGet 网站.

将打开以下 Readme.txt 文件:

C# 阅读 PDF 文件:简易教程,图 12:IronPdf 的自述文件与代码示例

附有代码示例的 IronPdf 自述文件**

我建议您阅读所有链接,并 探索更多代码示例 关于本图书馆。


第 3 步:设计 Windows 窗体应用程序

创建项目并安装 NuGet 软件包后,下一步就是设计一个 Windows 窗体应用程序,要求用户浏览文件并显示其内容。

打开 Form1 设计:

C# 阅读 PDF 文件:轻松教程,图 14:Form1 设计 UI

Form1 设计用户界面

点击窗口左侧的工具栏:

C# 阅读 PDF 文件:轻松教程,图 15:标签和文本框的工具箱用户界面

用于标签和文本框的工具箱用户界面

搜索标签,并将其拖放到表单设计中

为标签命名。在这里,我将其命名为 "C# Read Pdf using IronPDF"。

C# 阅读 PDF 文件:轻松教程,图 20:添加了标签的 Form1 UI

添加了标签的 Form1 用户界面**

接下来,拖放一个文本框 (显示文件路径)三个按钮 (一个用于浏览文件,一个用于使用 IronPDF 阅读 pdf 文件,第三个按钮用于 "清除文本 "字段)和一个 RichTextBox (用于读取和显示文件内容).

将 TextBox 和 RichTextBox 的 "只读属性 "设置为 "假"。这样用户就只能读取内容和文件路径。

C# 阅读 PDF 文件:轻松教程,图 10:设计饱满的 Form1

Form1 Fulled designed


第 4 步:添加用于浏览 PDF 文件的后端代码

双击 "浏览 "按钮,将出现以下窗口:

private void Browse_Click(object sender, EventArgs e)
{
}
private void Browse_Click(object sender, EventArgs e)
{
}
Private Sub Browse_Click(ByVal sender As Object, ByVal e As EventArgs)
End Sub
VB   C#

接下来,在 Browse_Click 函数中编写以下代码:

private void Browse_Click(object sender, EventArgs e)
{
    OpenFileDialog browseFile = new OpenFileDialog
    {
        InitialDirectory = @"D:\",
        Title = "Browse Pdf Files",
        CheckFileExists = true,
        CheckPathExists = true,
        DefaultExt = "pdf",
        Filter = "pdf files (*.pdf)
*.pdf",
        FilterIndex = 2,
        RestoreDirectory = true,
        ReadOnlyChecked = true,
        ShowReadOnly = true
    };
    if (browseFile.ShowDialog() == DialogResult.OK)
    {
        FilePath.Text = browseFile.FileName;
    }
}
private void Browse_Click(object sender, EventArgs e)
{
    OpenFileDialog browseFile = new OpenFileDialog
    {
        InitialDirectory = @"D:\",
        Title = "Browse Pdf Files",
        CheckFileExists = true,
        CheckPathExists = true,
        DefaultExt = "pdf",
        Filter = "pdf files (*.pdf)
*.pdf",
        FilterIndex = 2,
        RestoreDirectory = true,
        ReadOnlyChecked = true,
        ShowReadOnly = true
    };
    if (browseFile.ShowDialog() == DialogResult.OK)
    {
        FilePath.Text = browseFile.FileName;
    }
}
Private Sub Browse_Click(ByVal sender As Object, ByVal e As EventArgs)
	Dim browseFile As New OpenFileDialog With {
		.InitialDirectory = "D:\",
		.Title = "Browse Pdf Files",
		.CheckFileExists = True,
		.CheckPathExists = True,
		.DefaultExt = "pdf",
		.Filter = "pdf files (*.pdf) *.pdf",
		.FilterIndex = 2,
		.RestoreDirectory = True,
		.ReadOnlyChecked = True,
		.ShowReadOnly = True
	}
	If browseFile.ShowDialog() = DialogResult.OK Then
		FilePath.Text = browseFile.FileName
	End If
End Sub
VB   C#

OpenFileDialogue "将创建 Windows 窗体应用程序的文件对话框控件实例。

我将初始路径设置为 D 盘;您可以将其设置为任何路径。

我设置了 `DefaultExt = "pdf",因为我们只需要读取 pdf 文件。

我使用了一个过滤器,这样浏览文件对话框就只会显示要选择的 PDF 文件。

用户点击 "确定 "后,文件路径字段中就会显示文件路径。

让我们运行解决方案并测试 "浏览 "按钮。

C# 阅读 PDF 文件:轻松教程,图 10:Form1 UI

Form1 UI

按下 "浏览 "按钮,会出现以下窗口:

C# 阅读 PDF 文件:轻松教程,图 11:浏览文件对话框选择 PDF 文件

浏览文件对话框选择 PDF 文件

选择文件 (我选择的是 IronPDFTest.pdf) 然后按 "打开"。将出现以下窗口。

C# 阅读 PDF 文件:轻松教程,图 13:C# 中的 PDF

PDF in C#

现在让我们编写 "读取 "按钮后面的代码,以读取文件。


步骤 #5:使用 IronPDF 添加读取 PDF 文档的后端代码

您可能会认为,读取 PDF 文件的代码既复杂又难以编写和理解。

不用担心。IronPDF 化繁为简,让一切都变得如此简单。只需两行代码,我们就能轻松读取 PDF 文件。

进入 Form1 设计,"双击""读取 "按钮。将出现以下窗口:

private void Read_Click(object sender, EventArgs e)
{
}
private void Read_Click(object sender, EventArgs e)
{
}
Private Sub Read_Click(ByVal sender As Object, ByVal e As EventArgs)
End Sub
VB   C#

添加命名空间 using IronPdf 以导入 IronPDF 库:

using System;
using IronPdf;
using System;
using IronPdf;
Imports System
Imports IronPdf
VB   C#

Read_Click函数内编写以下代码:

private void Read_Click(object sender, EventArgs e)
{
    using PdfDocument pdf = PdfDocument.FromFile(FilePath.Text);
    FileContent.Text = pdf.ExtractAllText(); 
}
private void Read_Click(object sender, EventArgs e)
{
    using PdfDocument pdf = PdfDocument.FromFile(FilePath.Text);
    FileContent.Text = pdf.ExtractAllText(); 
}
Private Sub Read_Click(ByVal sender As Object, ByVal e As EventArgs)
	Using pdf As PdfDocument = PdfDocument.FromFile(FilePath.Text)
		FileContent.Text = pdf.ExtractAllText()
	End Using
End Sub
VB   C#

FilePath "是文本字段的名称,用于显示我们要读取的 PDF 文档的位置。我们将动态获取文件的位置。

提取所有文本 是 IronPDF 函数,它将从 PDF 页面中提取所有数据。这些数据将显示在富文本框中,并命名为 "文件内容"。

接下来,让我们编写 "清除按钮 "后面的代码。如果您想在阅读完 PDF 文档后清除屏幕,这只是一个附加项目。

双击 "清除按钮",您将看到以下代码:

void Clear_Click(object sender, EventArgs e)
{
}
void Clear_Click(object sender, EventArgs e)
{
}
Private Sub Clear_Click(ByVal sender As Object, ByVal e As EventArgs)
End Sub
VB   C#

Clear_Click函数内编写以下代码:

void Clear_Click(object sender, EventArgs e)
{
    FileContent.Text = "";
    FilePath.Text = "";
}
void Clear_Click(object sender, EventArgs e)
{
    FileContent.Text = "";
    FilePath.Text = "";
}
Private Sub Clear_Click(ByVal sender As Object, ByVal e As EventArgs)
	FileContent.Text = ""
	FilePath.Text = ""
End Sub
VB   C#

运行解决方案

点击 "浏览 "按钮,选择要读取的文档。在我的例子中,我正在阅读 IronPDF.pdf 文件:

C# 阅读 PDF 文件:轻松教程,图 8:PDF 文件

PDF 文件

按下 "打开 "按钮,会出现以下窗口:

C# 阅读 PDF 文件:轻松教程,图 13:带有选定 PDF 文件的应用程序

带有选定 PDF 文件的应用程序

按下 "读取 "按钮。它将读取文件并显示内容,如下图所示。

C# 阅读 PDF 文件:轻松教程,图 19:显示 PDF 文本内容

显示 PDF 文本内容


摘要

这是一个示例解决方案。无论 PDF 文件中有多少页、图像或文本,IronPDF 都能提取所有文本和图像,供您用于任何用途。您只需获得该库的许可证即可开始使用。

本教程到此结束。希望你已经明白了一切,如果有任何疑问,请随时在评论区发表。

您可以下载 项目压缩文件.如果您想购买全套 Iron 软件产品,我们的特价优惠意味着您现在只需花两套软件的价格即可购买所有产品。如果您需要更多关于许可证和支持的详细信息,请点击 此定价页面.您还可以获得 免费试用许可证

< 前一页
一键生成.NET PDF
下一步 >
如何为PDF文档设置密码保护

准备开始了吗? 版本: 2024.10 刚刚发布

免费NuGet下载 总下载量: 11,108,738 查看许可证 >