使用IRONPDF

如何在C#中读取PDF文件

本文将使用IronPDF for .NET,一个C# PDF库来读取PDF文件。

如何使用 IronPDF 阅读 PDF 文件

  1. 如果尚未下载,请下载 Visual Studio。 设置环境并安装IronPDF库。

  2. 使用PdfDocument.FromFile方法打开并加载所需的PDF文件。

  3. 使用 IronPDF 的ExtractAllText方法来提取内容。

  4. 根据需要分析或处理提取的文本。

  5. 在控制台中打印提取的文本以进行阅读。

IronPDF

IronPDF,一个强大的 C# PDF 阅读器库,使开发人员能够轻松处理 PDF 文档。 凭借其广泛的功能和能力,IronPDF 简化了 PDF 文档处理的任务,使用户能够轻松读取、提取和操作 PDF 内容。 无论您是自动化文档处理、提取数据和图像以进行分析,还是从零开始创建PDF,IronPDF都提供了全面的工具集来简化这些任务。

本文探讨了在C#中使用IronPDF进行高效PDF处理的世界,展示了其多功能性和作为开发人员的软件开发旅程中的必备工具的价值。

创建新的 Visual Studio 项目

在深入编码方面之前,让我们开始设置一个新的Visual Studio C#控制台应用程序项目。 该项目将作为开发和实际示例的专用工作区。

  1. 要启动此过程,请启动 Visual Studio,并通过导航到“文件”菜单并选择“新建”然后选择“项目”来创建一个新项目。

    如何在C#中读取PDF文件,图1:在Visual Studio中导航到“创建项目”对话框

    在 Visual Studio 中导航到创建项目对话框

  2. 此操作将弹出一个新窗口,提供您指定项目模板的机会。 为了简化起见,请选择“控制台应用程序”模板,然后通过单击窗口左下角精心放置的下一步按钮继续。

    如何在 C# 中读取 PDF 文件,图 2:在 Visual Studio 中创建一个新项目

    在Visual Studio中创建新项目

  3. 在接下来的窗口中,系统会提示您为项目指定一个名称并指定所需的项目位置。 完成这些信息后,点击下一步按钮继续。

    如何在 C# 中读取 PDF 文件,图 3:配置项目

    配置项目

  4. 在此步骤中,选择您首选的目标框架,并通过点击创建按钮来完成项目创建过程。

    如何在C#中读取PDF文件,图4:.NET Framework选择

    .NET Framework 选择

    随着您的项目现在已经稳固建立,接下来的关键步骤涉及安装IronPDF

安装 IronPDF

IronPDF 提供多种下载和安装 PDF 库的选项。 在本指南中,将重点放在通过NuGet包管理器安装IronPDF,这是一个高效且广泛采用的方法。

  1. 在 Visual Studio 中,导航到“工具”菜单上,优雅地将光标悬停在“NuGet 包管理器”选项上。

  2. 从扩展菜单中,选择“NuGet 包管理器用于解决方案”。

    如何在 C# 中读取 PDF 文件,图 5:导航到 NuGet 包管理器

    导航到NuGet包管理器

  3. 选择此选项后,将会打开一个新窗口。 在这个精炼的窗口中,导航到“浏览”菜单,并在搜索栏中输入“IronPDF”。

  4. 屏幕将显示可用的IronPDF软件包。 要继续,请从列表中选择最新的软件包,然后单击“安装”选项来执行此选择。

    如何在C#中读取PDF文件,图6:在NuGet包管理器UI中搜索并安装IronPdf包

    在NuGet包管理器UI中搜索并安装IronPdf包

    对于那些偏好命令行方法的人来说,NuGet 包管理器控制台提供了一种优雅的途径。 只需打开此控制台,输入以下命令,然后按“Enter”键:

Install-Package IronPdf

您还可以选择直接从NuGet 网站链接获取该软件包。

使用 IronPDF 阅读 PDF 文件

本节将展示如何使用IronPDF通过C#编程语言打开和读取完整的PDF文件。

using IronPdf;
using System;

IronPdf.License.LicenseKey = "";
//raw text string path
var pdf = PdfDocument.FromFile("document_scaled_compressed.pdf");

string text = pdf.ExtractAllText();

Console.WriteLine(text);
using IronPdf;
using System;

IronPdf.License.LicenseKey = "";
//raw text string path
var pdf = PdfDocument.FromFile("document_scaled_compressed.pdf");

string text = pdf.ExtractAllText();

Console.WriteLine(text);
Imports IronPdf
Imports System

IronPdf.License.LicenseKey = ""
'raw text string path
Dim pdf = PdfDocument.FromFile("document_scaled_compressed.pdf")

Dim text As String = pdf.ExtractAllText()

Console.WriteLine(text)
$vbLabelText   $csharpLabel

1. 导入必要的库

要开始使用,您需要导入所需的命名空间。 在上面的代码示例中,IronPdf 命名空间被导入,其中包含处理PDF文件的基本功能。 另外,还导入了System命名空间以进行通用的系统级操作。

using IronPdf;
using System;
using IronPdf;
using System;
Imports IronPdf
Imports System
$vbLabelText   $csharpLabel

2. 设置IronPDF许可证密钥

IronPDF 需要有效的许可证密钥才能在生产环境中使用。 在代码示例中,有一行需要设置许可证密钥。 然而,在您提供的代码中,许可证密钥是空的""。 在生产环境中使用IronPDF时,请确保将空字符串替换为有效的许可证密钥。

IronPdf.License.LicenseKey = "Your_License_Key_Here";
IronPdf.License.LicenseKey = "Your_License_Key_Here";
IronPdf.License.LicenseKey = "Your_License_Key_Here"
$vbLabelText   $csharpLabel

3. 加载PDF文档

下一步是加载和解析 PDF 文件。在提供的代码中,使用 PdfDocument.FromFile 方法通过文件名 "document_scaled_compressed.pdf" 加载 PDF,并将其分配给 pdf 变量。 此PDF文件将用于文本提取。

var pdf = PdfDocument.FromFile("document_scaled_compressed.pdf");
var pdf = PdfDocument.FromFile("document_scaled_compressed.pdf");
Dim pdf = PdfDocument.FromFile("document_scaled_compressed.pdf")
$vbLabelText   $csharpLabel

4. 从PDF文档中提取文本

IronPDF提供了一种从加载的PDF文档中提取文本的简便方法。 ExtractAllText 方法可以从 PDF 的每一页中提取所有文本内容,并将其存储在名为 text字符串变量中,这相当于将 PDF 转换为文本。

string text = pdf.ExtractAllText();
string text = pdf.ExtractAllText();
Dim text As String = pdf.ExtractAllText()
$vbLabelText   $csharpLabel

5. 显示提取的文本

最后一步是显示提取的文本。 在代码中,Console.WriteLine 将把提取的文本打印并写入控制台。 这是一种用于调试或向用户显示文本的有用方法。

Console.WriteLine(text);
Console.WriteLine(text);
Console.WriteLine(text)
$vbLabelText   $csharpLabel

从PDF文件中提取的文本输出

如何在 C# 中读取 PDF 文件,图 7:从 PDF 文件中提取的文本

从PDF文件中提取的文本

结论

本文指导开发人员通过使用IronPDF库在C#中有效地处理PDF文件的过程。 它开始通过展示如何设置专用的Visual Studio项目,并接着通过NuGet包管理器简单安装IronPDF。 该文章接着提供了逐步解释如何导入必要的库、设置IronPDF许可证密钥、加载PDF文件、提取文本内容以及显示所有页面中提取的文本。 您还可以使用C#将提取的文本保存到TXT文件中。

凭借其用户友好的方法和全面的功能,IronPDF 成为自动化文档处理、数据提取和从HTML、URL和图像创建PDF的必不可少的工具,这使其成为增强涉及C#中PDF文件处理的软件开发项目的宝贵资产。

关于使用IronPDF读取PDF文件的完整文章可以在以下操作指南页面找到。 关于C# PDF reader的代码示例也可用。 有关使用IronPDF的更多代码示例,请访问此示例页面。 IronPDF还提供详尽的文档,解答所有开发者的问题,并提供全面的动手支持。 IronPDF提供免费的试用许可证,以便用户在购买永久许可证之前可以探索其全部功能。

Chipego
软件工程师
Chipego 拥有出色的倾听技巧,这帮助他理解客户问题并提供智能解决方案。他在 2023 年加入 Iron Software 团队,此前他获得了信息技术学士学位。IronPDF 和 IronOCR 是 Chipego 主要专注的两个产品,但他对所有产品的了解每天都在增长,因为他不断找到支持客户的新方法。他喜欢 Iron Software 的合作氛围,公司各地的团队成员贡献他们丰富的经验,以提供有效的创新解决方案。当 Chipego 离开办公桌时,你经常可以发现他在看书或踢足球。
< 前一页
如何在C#中添加PDF印章
下一步 >
如何在.NET库中压缩PDF文件