使用IRONPDF

C# 从 PDF 提取文本(代码示例教程)

更新 2023年十二月3日
分享:

便携式文档格式文件用于各种业务。在开发文档时,开发人员使用 PDF 格式来帮助他们的客户。有了现在的库,创建 PDF 变得前所未有的简单。我们必须对构建、阅读和转换等要素进行评估,以确定哪个商业库最适合在项目中使用。

1.IronPDF 功能

IronPDF 是一款强大的 PDF 转换器,几乎可以执行浏览器可以执行的任何操作。通过为开发人员提供的 .NET 库,创建、阅读和操作 PDF 文档变得非常简单。IronPDF 使用 Chrome 引擎将 HTML 转换为 PDF 文档。IronPDF 支持 HTML、ASPX、Razor HTML 和 MVC View 等网络组件。IronPDF 支持 Microsoft .NET 应用程序 (ASP.NET 网络应用程序和传统的 Windows 应用程序).IronPDF 还可用于创建具有视觉吸引力的 PDF 文档。

我们可以使用 IronPDF 将 HTML5、JavaScript、CSS 和图片制作成 PDF 文档。此外,文件还可以有页眉和页脚。有了 IronPDF,我们可以轻松阅读 PDF 文档。IronPDF 还拥有全面的 PDF 转换引擎和强大的 HTML 到 PDF 转换器,可以处理 PDF 文档。

  • 可用于创建 PDF 文件的源包括 HTML、HTML5、ASPX 和 剃刀/MVC视图.我们不仅能将 HTML 文件转换为 PDF,还能 将图像文件转换为 PDF.
  • 通过 IronPDF,您可以创建交互式 PDF 文档,填写并提交交互式表格、 合并和分割 PDF 文档您还可以从 PDF 文件中提取文本和图像,搜索 PDF 文件中的文本,将 PDF 页面光栅化为图像,将 PDF 转换为 HTML,以及打印 PDF 文档。
  • IronPDF 能够从 URL 创建文档。它还支持自定义网络登录凭据、用户代理、代理服务器、Cookies、HTTP 头信息和表单变量,用于 在 HTML 登录表格后面登录.
  • IronPDF 是一款可让您查看和编辑 PDF 文件的程序。 填写 PDF 文档.
  • 使用 IronPDF 可以从文档中提取图像。
  • IronPDF 允许我们使用以下功能定制文档 页眉您还可以选择页眉、页脚、文本、图像、书签、 水印等等。
  • 我们可以使用 IronPDF 在新文档或现有文档中连接和分割页面。
  • 如果没有 Acrobat 浏览器,我们可以将文档转换为 PDF 对象。
  • 可以将 CSS 文件转换为 PDF 文档。
  • 媒体类型的 CSS 文件可以转换成文档。

2.在 Visual Studio 中创建新项目

打开 Visual Studio 软件,进入 "文件 "菜单。选择 "新建项目",然后选择 "控制台应用程序"。在本文中,我们将使用控制台应用程序生成 PDF 文档。

C# 从 PDF 中提取文本(代码示例教程),图 1:在 Visual Studio 中创建新项目

在 Visual Studio 中创建一个新项目

在相应的文本框中输入项目名称并选择文件路径。然后,单击 Create 按钮并选择所需的 .NET Framework,如下图所示。

C# 从 PDF 中提取文本(代码示例教程),图 2:在 Visual Studio 中配置新项目

在 Visual Studio 中配置新项目

Visual Studio 项目现在将为所选应用程序生成结构,如果您选择了控制台、Windows 和 Web 应用程序,它将打开 program.cs 文件,您可以在其中输入代码并构建/运行应用程序。

C# 从 PDF 中提取文本(代码示例教程),图 3:选择 .NET Core

选择 .NET Core

接下来,我们可以添加库来测试代码。

3.安装 IronPDF 库

IronPDF 库可以通过四种方式下载和安装。

它们是

  • 使用 Visual Studio。
  • 使用 Visual Studio 命令行
  • 从 NuGet 网站直接下载。
  • 从 IronPDF 网站直接下载。

3.1 使用 Visual Studio

Visual Studio 软件提供了 NuGet 包管理器选项,可直接将软件包安装到解决方案中。下面的截图显示了如何打开 NuGet 包管理器。

C# 从 PDF 中提取文本(代码示例教程),图 4:Visual Studio program.cs 文件

虚拟工作室程序.cs 文件

它提供了一个搜索框,用于显示 NuGet 网站上的软件包列表。在软件包管理器中,我们需要搜索关键字 "IronPdf",如下图所示。

C# 从 PDF 中提取文本(代码示例教程),图 5:NuGet 包管理器

NuGet软件包管理器

在上图中,我们可以看到相关搜索项的列表。我们需要选择所需的选项,将软件包安装到解决方案中。

3.2 使用 Visual Studio 命令行

在 Visual Studio 中,转到工具 > NuGet 包管理器 > 包管理器控制台

在软件包管理器控制台选项卡中输入以下一行:

Install-Package IronPdf

现在,软件包将下载/安装到当前项目,并可随时使用。

C# 从 PDF 中提取文本(代码示例教程),图 6:NuGet 包管理器中的 IronPdf 库

NuGet 软件包管理器中的 IronPdf 库**

3.3 直接从 NuGet 网站下载

第三种方法是下载 NuGet 软件包 直接从网站获取。

  • 导航至链接。
  • 从右侧菜单中选择下载软件包选项。
  • 双击下载的软件包。软件包将自动安装。
  • 接下来,重新加载解决方案并开始在项目中使用。

3.4 直接从 IronPDF 网站下载

访问 我们的 IronPDF 网站 直接从网站下载最新软件包。下载完成后,按照以下步骤将软件包添加到项目中。

  • 在解决方案窗口中右键单击项目。
  • 然后,选择选项参考并浏览下载参考的位置。

  • 然后,单击 "确定 "添加引用。

4.使用 IronPDF 提取文本

通过 IronPDF 程序,我们可以从 PDF 文件中提取文本,并将 PDF 页面转换为 PDF 对象。下面是一个如何使用 IronPDF 读取现有 PDF 文件的示例。

第一种方法是从 PDF 中提取文本,示例代码片段如下。

var pdfDocument = IronPdf.PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
var pdfDocument = IronPdf.PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
Dim pdfDocument = IronPdf.PdfDocument.FromFile("result.pdf")
Dim AllText As String = pdfDocument.ExtractAllText()
VB   C#

"(《世界人权宣言》) 从文件 静态方法用于从现有文件加载 PDF 文档,并将其转换为 PDFDocument 对象,如上面的代码所示。我们可以使用该对象读取 PDF 页面上可访问的文本和图像。该对象有一个名为 提取所有文本 从整个 PDF 文档中提取所有文本,然后将提取的文本保存到字符串中,我们就可以使用该字符串进行处理。

下面是第二种方法的代码示例,我们可以用它从 PDF 文件中逐页提取文本。

using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
}
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
}
Using pdf As PdfDocument = PdfDocument.FromFile("result.pdf")
	For index = 0 To pdf.PageCount - 1
		Dim PageNumber As Integer = index + 1
		Dim Text As String = pdf.ExtractTextFromPage(index)
	Next index
End Using
VB   C#

在上面的代码中,我们可以看到它将首先加载整个 PDF 文档并将其转换为 PDF 对象。然后,我们使用一个名为 页数,这将检索出加载的 PDF 文档的可用总页数。使用 "for 循环 "和 从页面提取文本 函数允许我们将页码作为参数传递,以便从加载的文档中提取文本。然后,它会将准确的文本保存到字符串变量中。同样,在 "for "或 "for each "循环的帮助下,它也会从 PDF 文件中逐页提取文本。

5.结论

IronPDF 是最常用的 PDF 库之一。它不依赖于任何其他第三方库。它是独立的,无需在机器上安装 Adobe Reader。它可在多个平台上运行。IronPDF 的入门价格为 $749。您可以选择支付一年的产品支持和更新费用,IronPDF 还提供免版税的再分发服务,但需支付额外费用。更多详情,请访问我们的 定价页.

< 前一页
如何使用C#在ASP.NET中生成PDF
下一步 >
如何在C#中从PDF中提取数据

准备开始了吗? 版本: 2024.9 刚刚发布

免费NuGet下载 总下载量: 10,731,156 查看许可证 >