使用IRONPDF

C# 从 PDF 提取文本(代码示例教程)

更新 2023年十二月3日
分享:

便携式文档格式文件用于各种业务。 在开发文档时,开发人员使用 PDF 格式为客户提供帮助。 有了今天的图书馆,创建 PDF 变得前所未有的简单。 我们必须对构建、阅读和转换等要素进行评估,以确定哪个商业库最适合在项目中使用。

1.IronPDF 功能

IronPdf 是一款功能强大的 PDF 转换器,几乎可以执行浏览器可以执行的任何操作。 使用面向开发人员的 .NET 库,创建、阅读和操作 PDF 文档非常简单。 IronPDF 使用 Chrome 引擎将 HTML 文档转换为 PDF 文档。IronPdf 支持 HTML、ASPX、Razor HTML 和 MVC View 等网络组件。 IronPDF 支持 Microsoft .NET 应用程序(ASP.NET 网络应用程序和传统的 Windows 应用程序). IronPDF 还可用于创建具有视觉吸引力的 PDF 文档。

我们可以用 IronPDF 将 HTML5、JavaScript、CSS 和图片制作成 PDF 文档。 此外,文件可以有页眉和页脚。 多亏了 IronPDF,我们才能轻松阅读 PDF 文档。 IronPDF 还拥有全面的 PDF 转换引擎和强大的 HTML 到 PDF 转换器,可以处理 PDF 文档。

  • 可用于创建 PDF 文件的资源包括 HTML、HTML5、ASPX 和使用 IronPdf 的 Razor/MVC 视图. 我们不仅可以将 HTML 文件转换为 PDF,还可以将图像文件转换为 PDF 格式.
  • IronPdf 允许您构建交互式 PDF 文档、填写和提交交互式表单、高效合并和拆分 PDF 文档这些工具包括:从 PDF 文件中提取文本和图像、搜索 PDF 文件中的文本、将 PDF 页面光栅化为图像、将 PDF 转换为 HTML 以及打印 PDF 文档。
  • IronPDF 能够从 URL 创建文档。 它还支持自定义网络登录凭据、用户代理、代理服务器、cookie、HTTP 标头和表单变量,用于浏览受登录保护的 HTML 表单.
  • IronPDF 是一款可让您查看和阅读 IronPDF 的程序。使用表单数据填写 PDF 文档.
  • 可以使用 IronPDF 从文件中提取图片。
  • IronPDF 允许我们用以下方式定制文档页眉、页脚和自定义元素您还可以选择页眉、页脚、文本、图像、书签、自定义水印,以及更多。
  • 我们可以使用 IronPDF 在新文档或现有文档中连接和拆分页面。
  • 如果没有 Acrobat 浏览器,我们可能会将文档转换为 PDF 对象。
  • 可以将 CSS 文件转换成 PDF 文档。
  • 可将媒体类型的 CSS 文件转换为文档。

2.在 Visual Studio 中创建新项目

打开 Visual Studio 软件,进入 "文件 "菜单。 选择 "新建项目",然后选择 "控制台应用程序"。 在本文中,我们将使用控制台应用程序生成 PDF 文档。

C# 从 PDF 中提取文本(代码示例教程),图 1:在 Visual Studio 中创建新项目

在Visual Studio中创建一个新项目

在相应文本框中输入项目名称并选择文件路径。 然后,单击"创建"按钮,选择所需的 .NET Framework,如下面的截图所示。

C# 从 PDF 中提取文本(代码示例教程),图 2:在 Visual Studio 中配置新项目

在 Visual Studio 中配置新项目

Visual Studio 项目现在将为所选应用程序生成结构,如果您选择了控制台、Windows 和 Web 应用程序,它将打开 program.cs 文件,您可以在其中输入代码并构建/运行应用程序。

C# 从 PDF 中提取文本(代码示例教程),图 3:选择 .NET Core

选择 .NET Core

接下来,我们可以添加库来测试代码。

3.安装 IronPDF 库

IronPDF 库可以通过四种方式下载和安装。

它们是

  • 使用 Visual Studio。
  • 使用 Visual Studio 命令行
  • 直接从 NuGet 网站下载。
  • 直接从 IronPDF 网站下载。

3.1 使用 Visual Studio

Visual Studio 软件提供了 NuGet 软件包管理器选项,可直接将软件包安装到解决方案中。 下面的截图显示了如何打开 NuGet 包管理器。

C# 从 PDF 中提取文本(代码示例教程),图 4:Visual Studio program.cs 文件

Visual Studio program.cs 文件

它提供了搜索框来显示 NuGet 网站上的软件包列表。在软件包管理器中,我们需要搜索关键词 "IronPdf",如下截图所示。

C# 从 PDF 中提取文本(代码示例教程),图 5:NuGet 包管理器

NuGet软件包管理器

在上图中,我们可以看到相关搜索项的列表。 我们需要选择所需的选项,将软件包安装到解决方案中。

3.2 使用 Visual Studio 命令行

在 Visual Studio 中,转到工具 > NuGet 包管理器 > 包管理器控制台

在软件包管理器控制台选项卡中输入以下一行:

Install-Package IronPdf

现在,软件包将下载/安装到当前项目,并可随时使用。

C# 从 PDF 中提取文本(代码示例教程),图 6:NuGet 包管理器中的 IronPdf 库

NuGet 软件包管理器中的 IronPdf 库**

3.3 直接从 NuGet 网站下载

第三种方法是下载IronPDF NuGet 软件包直接从其网站获取。

  • 导航至 NuGet 上的 IronPDF 软件包。
  • 从右侧菜单中选择下载软件包选项。
  • 双击下载的软件包。 它将自动安装。
  • 接下来,重新加载解决方案并开始在项目中使用。

3.4 直接从 IronPDF 网站下载

参观IronPDF 官方网站您可以直接从他们的网站下载最新的软件包。下载完成后,请按照以下步骤将软件包添加到项目中。

  • 右键单击解决方案窗口中的项目。
  • 接着,选择“引用”选项并浏览下载的引用位置。
  • 然后,单击 "确定 "添加引用。

4.使用 IronPDF 提取文本

IronPDF 程序允许我们从 PDF 文件中进行文本提取,并将 PDF 页面转换为 PDF 对象。 下面举例说明如何使用 IronPDF 读取现有 PDF。

第一种方法是从 PDF 中提取文本,示例代码片段如下。

using IronPdf;

var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
using IronPdf;

var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
Imports IronPdf

Private pdfDocument = PdfDocument.FromFile("result.pdf")
Private AllText As String = pdfDocument.ExtractAllText()
VB   C#

"(《世界人权宣言》)从文件静态方法用于从现有文件加载 PDF 文档,并将其转换为PDFDocument如上代码所示,我们需要翻译的是.NET、Java、Python 或 Node.js 对象。 我们可以使用此对象阅读 PDF 页面上可访问的文本和图像。 该对象有一个名为提取所有文本我们可以使用 "提取 "工具,它可以从整个 PDF 文档中提取所有文本,然后将提取的文本保存为字符串,我们可以使用该字符串进行处理。

下面是第二种方法的代码示例,我们可以使用这种方法从 PDF 文件中逐页提取文本。

using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    string Text = pdf.ExtractTextFromPage(index);
}
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    string Text = pdf.ExtractTextFromPage(index);
}
Using pdf As PdfDocument = PdfDocument.FromFile("result.pdf")
	For index = 0 To pdf.PageCount - 1
		Dim Text As String = pdf.ExtractTextFromPage(index)
	Next index
End Using
VB   C#

在上面的代码中,我们看到它将首先加载整个 PDF 文档并将其转换为 PDF 对象。 然后,我们使用一种名为 "Page Count "的内置方法来获取整个 PDF 文档的页数。页数点击"......",这将检索已加载 PDF 文档的可用总页数。 使用 "for 循环 "和从页面提取文本该功能允许我们将页码作为参数传递,以便从加载的文档中提取文本。 然后将准确的文本保存到字符串变量中。 同样,它还将借助 "for "或 "for each "循环从 PDF 中逐页提取文本。

结论

IronPDF 是最常用的 PDF 库之一。 它不依赖于任何其他第三方库。 它是独立的,无需在机器上安装 Adobe Reader。它可在多个平台上运行。 IronPdf 的入门价格为 $749。 您可以选择支付一年的产品支持和更新费用,IronPDF 还提供免版税的再分发服务,但需支付额外费用。欲了解更多详情,请访问IronPDF 定价页面.

< 前一页
如何使用C#在ASP.NET中生成PDF
下一步 >
如何在C#中从PDF中提取数据

准备开始了吗? 版本: 2024.12 刚刚发布

免费NuGet下载 总下载量: 11,781,565 查看许可证 >