使用IRONPDF

如何在C#中从PDF中提取数据

更新 2024年一月21日
分享:

介绍

从 PDF 中提取数据对于节省手动输入时间至关重要。 本文介绍了开发人员如何使用 IronPDF 库来提取文本和图像从PDF文档。

IronPDF:C# PDF 库

IronPDFPDF 是一个 .NET 库,可用于创建、编辑和转换 PDF 文件。 它为开发人员的应用程序提供了易于使用的 API。 它是全球最流行的创建、编辑和转换 PDF 文件的库之一。 使用 IronPdf,您可以创建一个直接、快速的 PDF 解决方案。 您的文字将被定制每份文档、您的布局为便于阅读,我们将对译文进行设置,并将在随附的 .NET 程序的帮助下设计您的图形。

IronPDF 库具有从 PDF 文件中提取数据的神奇功能。 本文将介绍如何使用 IronPDF 提取数据。 首先,需要创建或打开一个 C# 项目。 让我们进入下一部分。

在 Visual Studio 中创建或打开 C# 项目

本教程建议使用最新版本的 Visual Studio。

打开 Visual Studio 后,按照以下步骤创建一个新的 C# 项目。 如果您想使用现有的项目,请跳过接下来的步骤,直接进入下一部分。

  • 打开 Visual Studio
  • 点击“创建新项目”按钮。

    如何用 C# 从 PDF 中提取数据,图 1:Visual Studio 打开用户界面

    Visual Studio 开放式用户界面

  • 从模板中选择 "C# 控制台应用程序"。

    如何使用 C# 从 PDF 中提取数据,图 2:创建新项目

    创建新项目

  • 为项目命名,然后单击下一步按钮。
  • 根据您的项目要求选择 .NET Framework,然后点击创建按钮。

    如何用 C# 从 PDF 中提取数据,图 3:.NET 框架选择

    *.NET Framework 选择***

    Visual Studio 现在将生成一个新的 C# .NET 项目。

安装 IronPDF 库

IronPDF 库可以通过多种方式安装。

使用软件包管理器控制台

  • 进入工具 > NuGet 软件包管理器 > 软件包管理器控制台,打开软件包管理器控制台。
  • 运行以下命令
Install-Package IronPdf

如何用 C# 从 PDF 中提取数据,图 4:软件包管理器控制台选项卡中的安装进度

软件包管理器控制台选项卡中的安装进度

安装完成后,您将在解决方案资源管理器的 "依赖项 "部分看到 IronPdf 依赖项,如下图所示。

如何用 C# 从 PDF 中提取数据,图 5:在解决方案资源管理器中引用 IronPdf 软件包

参考解决方案资源管理器中的 IronPdf 软件包

使用 NuGet 软件包管理器

安装 IronPdf 库的另一种方法是使用 Visual Studio 集成的 NuGet 包管理器用户界面。

  • 从主菜单转到工具。 将鼠标悬停在下拉菜单中的 "NuGet Package Manager "上,然后选择 "NuGet Package Manager 解决方案"。

    如何用 C# 从 PDF 中提取数据,图 6:导航至 NuGet 包管理器

    导航到NuGet包管理器

  • 这将打开 NuGet 包管理器窗口。 转到 "浏览 "选项卡,在搜索中写入 "IronPdf",然后按 Enter。
  • 从搜索结果中选择 IronPdf,点击 "安装 "按钮开始安装。

    如何用 C# 从 PDF 中提取数据,图 7:从 NuGet 软件包管理器中安装 IronPdf 软件包

    从 NuGet 软件包管理器安装 IronPdf 软件包

从 PDF 文件中提取数据

让我们看看下面的代码,了解如何使用 IronPDF 提取数据:

//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;

//  Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Get all text to put in a search index
string AllText = pdf.ExtractAllText();

//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}
//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;

//  Extracting Image and Text content from Pdf Documents

// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

//Get all text to put in a search index
string AllText = pdf.ExtractAllText();

//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();

//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
    int PageNumber = index + 1;
    string Text = pdf.ExtractTextFromPage(index);
    IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
    ///...
}
'Rendering PDF documents to Images or Thumbnails
Imports IronPdf
Imports System.Drawing

'  Extracting Image and Text content from Pdf Documents

' open a 128 bit encrypted PDF
Private PdfDocument As using

'Get all text to put in a search index
Private AllText As String = pdf.ExtractAllText()

'Get all Images
Private AllImages As IEnumerable(Of System.Drawing.Image) = pdf.ExtractAllImages()

'Or even find the precise text and images for each page in the document
For index = 0 To pdf.PageCount - 1
	Dim PageNumber As Integer = index + 1
	Dim Text As String = pdf.ExtractTextFromPage(index)
	Dim Images As IEnumerable(Of System.Drawing.Image) = pdf.ExtractImagesFromPage(index)
	'''...
Next index
VB   C#

首先是从文件在程序中加载输入的 PDF 文档时,使用".NET "方法。 我们会提供一个加密的 PDF 文件,需要密码才能访问该文件。然后,使用提取所有文本将所有文本数据提取到字符串变量中的方法。 从这里开始,"PdfDocument "提供了很多功能:输出为纯文本在翻译过程中,您可以将翻译内容转储到 TXT 文件中,也可以将其存储到数据库中,等等。

IronPDF可以从 PDF 表格中提取文本以纳入一个或多个CSV 文件.

第 11 行使用提取所有图像从 PDF 文档中提取所有嵌入图片的方法。

IronPDF 还可以从特定的 PDF 页面中提取内容。 上面示例中的剩余代码行演示了如何使用从页面提取文本从页面提取图像从网页子集中获取文本和图像的方法。 这两种方法都接受一个整数参数,表示所需页面的零基索引。

结论

IronPDF 允许开发人员只需一行代码就能从 PDF 文件中提取文本和图像,使用 ExtractAllTextExtractAllImages 可以立即提取 PDF 文件的全部内容。 另外,调用 ExtractAllImageExtractAllText 也可以从特定的 PDF 页面获取文本和图像。 前面的示例代码展示了如何使用这两种方法从一系列页面中读取文本和图像。

此外,IronPDF 还能够渲染图PDF 格式、添加条形码, 利用密码提高安全性水印甚至处理 PDF 表格编程。

IronPDF 的开发完全免费。 虽然商业用途需要付费,但您可以访问免费试用 IronPDF无偿提供。

购买Iron Software 的全套文档库两份的价格IronPDF Lite License.

下载立即下载 IronPDF今天就开始从 PDF 中提取数据!

< 前一页
C# 从 PDF 提取文本(代码示例教程)
下一步 >
如何使用C#在PDF中添加页码

准备开始了吗? 版本: 2024.12 刚刚发布

免费NuGet下载 总下载量: 11,781,565 查看许可证 >