使用IRONPDF

如何在C#中从PDF中提取数据

更新 2024年一月21日
分享:

介绍

从PDF中提取数据对于节省手动输入时间至关重要。本文解释了开发人员如何使用IronPDF库来 提取文本和图像 从 PDF 文档中

IronPDF:C# PDF 库

IronPDF 是一个 .NET 库,可用于创建、编辑和转换 PDF 文件。它提供了一个易于使用的 API,供开发人员在其应用程序中使用。它是全球最流行的创建、编辑和转换 PDF 文件的库之一。使用 IronPDF,您可以创建一个直接、快速的 PDF 解决方案。 您的文字将被定制 每份文档、 您的布局 为便于阅读,您将设置好您的.NET 程序,并在该程序的帮助下设计您的图形。

IronPDF 库具有从 PDF 文件中提取数据的神奇功能。本文将介绍如何使用 IronPDF 提取数据。首先,需要创建或打开一个 C# 项目。让我们进入下一部分。

在 Visual Studio 中创建或打开 C# 项目

本教程建议使用最新版本的 Visual Studio。

打开 Visual Studio 后,按照以下步骤创建一个新的 C# 项目。如果您想使用现有项目,请跳过接下来的步骤,直接进入下一部分。

  • 打开 Visual Studio
  • 点击 "创建新项目 "按钮。

如何用 C# 从 PDF 中提取数据,图 1:Visual Studio 打开用户界面

打开用户界面

  • 从模板中选择 "C# 控制台应用程序"。

如何使用 C# 从 PDF 中提取数据,图 2:创建新项目

创建一个新项目

  • 为项目命名,然后点击下一步按钮。
  • 根据项目要求选择 .NET Framework,然后单击创建按钮。

如何用 C# 从 PDF 中提取数据,图 3:.NET 框架选择

.NET框架选择

Visual Studio 现在将生成一个新的 C# .NET 项目。

安装 IronPDF 库

IronPDF 库可以通过多种方式安装。

使用软件包管理器控制台

  • 进入工具 > NuGet 软件包管理器 > 软件包管理器控制台,打开软件包管理器控制台。
  • 运行以下命令
Install-Package IronPdf

如何用 C# 从 PDF 中提取数据,图 4:软件包管理器控制台选项卡中的安装进度

软件包管理器控制台选项卡中的安装进度

安装完成后,您将在解决方案资源管理器的 "依赖项 "部分看到 IronPDF 依赖项,如下所示。

如何用 C# 从 PDF 中提取数据,图 5:在解决方案资源管理器中引用 IronPdf 软件包

参考解决方案资源管理器中的 IronPdf 软件包

使用 NuGet 软件包管理器

安装 IronPDF 库的另一种方法是使用 Visual Studio 集成的 NuGet 包管理器用户界面。

  • 从主菜单进入 "工具"。在下拉菜单中点击 "NuGet Package Manager(NuGet 包管理器)",然后选择 "NuGet Package Manager Solution(NuGet 包管理器解决方案)"。

如何用 C# 从 PDF 中提取数据,图 6:导航至 NuGet 包管理器

导航至 NuGet 软件包管理器

  • 这将打开 NuGet 包管理器窗口。转到 "浏览 "选项卡,在搜索中写入 "IronPdf",然后按 Enter。
  • 从搜索结果中选择 IronPDF,点击 "安装 "按钮开始安装。

如何用 C# 从 PDF 中提取数据,图 7:从 NuGet 软件包管理器中安装 IronPdf 软件包

从NuGet软件包管理器安装IronPdf软件包

从 PDF 文件提取数据

让我们看看下面的代码,了解如何使用 IronPDF 提取数据:

//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;

//  Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Get all text to put in a search index
string AllText = pdf.ExtractAllText();

//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}
//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;

//  Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Get all text to put in a search index
string AllText = pdf.ExtractAllText();

//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}
'Rendering PDF documents to Images or Thumbnails
Imports IronPdf
Imports System.Drawing

'  Extracting Image and Text content from Pdf Documents

' open a 128 bit encrypted PDF
Private PdfDocument As using

'Get all text to put in a search index
Private AllText As String = pdf.ExtractAllText()

'Get all Images
Private AllImages As IEnumerable(Of System.Drawing.Image) = pdf.ExtractAllImages()

'Or even find the precise text and images for each page in the document
For index = 0 To pdf.PageCount - 1
	Dim PageNumber As Integer = index + 1
	Dim Text As String = pdf.ExtractTextFromPage(index)
	Dim Images As IEnumerable(Of System.Drawing.Image) = pdf.ExtractImagesFromPage(index)
	'''...
Next index
VB   C#

首先是 从文件 方法用于在程序中加载输入的 PDF 文档。程序会提供一个加密的 PDF 文件,需要密码才能访问该文件。之后,使用 提取所有文本 方法将所有文本数据提取到一个字符串变量中。从这里开始,PdfDocument提供了很多功能: 输出为纯文本在 TXT 文件中转储,在数据库中存储,等等。

IronPDF 可以 从 PDF 表格中提取文本 以纳入一个或多个 CSV 文件.

第 11 行使用 提取所有图像 方法来提取 PDF 文档中的所有嵌入图像。

IronPDF 还能从特定的 PDF 页面中提取内容。上面示例中的其余几行代码演示了如何使用 从页面提取文本从页面提取图像 方法来获取页面子集中的文本和图像。这两种方法都接受一个整数参数,表示所需页面的零基索引。

结论

IronPDF 允许开发人员只需一行代码就能从 PDF 文件中提取文本和图像,使用 ExtractAllTextExtractAllImages 可以立即提取 PDF 文件的全部内容。或者,调用 ExtractAllImageExtractAllText 也可以只从特定的 PDF 页面提取文本和图像。前面的示例代码展示了如何使用这两种方法从一系列页面中读取文本和图像。

此外,IronPDF 还能 渲染图 PDF 格式、 添加条形码, 利用密码提高安全性水印甚至 处理 PDF 表格 编程。

IronPDF 的开发完全免费。商业用途需要付费,但您可以访问 免费试用 无偿生产。

购买 全套 两个 Iron 软件文档库的价格 ironPDF Lite 许可证.

下载 IronPDF 今天就开始从 PDF 中提取数据!

< 前一页
C# 从 PDF 提取文本(代码示例教程)
下一步 >
如何使用C#在PDF中添加页码

准备开始了吗? 版本: 2024.10 刚刚发布

免费NuGet下载 总下载量: 11,108,738 查看许可证 >