在实际环境中测试
在生产中测试无水印。
随时随地为您服务。
从PDF中提取数据对于节省手动输入时间至关重要。本文解释了开发人员如何使用IronPDF库来 提取文本和图像 从 PDF 文档中
IronPDF 是一个 .NET 库,可用于创建、编辑和转换 PDF 文件。它提供了一个易于使用的 API,供开发人员在其应用程序中使用。它是全球最流行的创建、编辑和转换 PDF 文件的库之一。使用 IronPDF,您可以创建一个直接、快速的 PDF 解决方案。 您的文字将被定制 每份文档、 您的布局 为便于阅读,您将设置好您的.NET 程序,并在该程序的帮助下设计您的图形。
IronPDF 库具有从 PDF 文件中提取数据的神奇功能。本文将介绍如何使用 IronPDF 提取数据。首先,需要创建或打开一个 C# 项目。让我们进入下一部分。
本教程建议使用最新版本的 Visual Studio。
打开 Visual Studio 后,按照以下步骤创建一个新的 C# 项目。如果您想使用现有项目,请跳过接下来的步骤,直接进入下一部分。
打开用户界面
创建一个新项目
.NET框架选择
Visual Studio 现在将生成一个新的 C# .NET 项目。
IronPDF 库可以通过多种方式安装。
Install-Package IronPdf
软件包管理器控制台选项卡中的安装进度
安装完成后,您将在解决方案资源管理器的 "依赖项 "部分看到 IronPDF 依赖项,如下所示。
参考解决方案资源管理器中的 IronPdf 软件包
安装 IronPDF 库的另一种方法是使用 Visual Studio 集成的 NuGet 包管理器用户界面。
导航至 NuGet 软件包管理器
从NuGet软件包管理器安装IronPdf软件包
让我们看看下面的代码,了解如何使用 IronPDF 提取数据:
//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;
// Extracting Image and Text content from Pdf Documents
// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
//Get all text to put in a search index
string AllText = pdf.ExtractAllText();
//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();
//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
int PageNumber = index + 1;
string Text = pdf.ExtractTextFromPage(index);
IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
///...
}
//Rendering PDF documents to Images or Thumbnails
using IronPdf;
using System.Drawing;
// Extracting Image and Text content from Pdf Documents
// open a 128 bit encrypted PDF
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
//Get all text to put in a search index
string AllText = pdf.ExtractAllText();
//Get all Images
IEnumerable<System.Drawing.Image> AllImages = pdf.ExtractAllImages();
//Or even find the precise text and images for each page in the document
for (var index = 0; index < pdf.PageCount; index++) {
int PageNumber = index + 1;
string Text = pdf.ExtractTextFromPage(index);
IEnumerable<System.Drawing.Image> Images = pdf.ExtractImagesFromPage(index);
///...
}
'Rendering PDF documents to Images or Thumbnails
Imports IronPdf
Imports System.Drawing
' Extracting Image and Text content from Pdf Documents
' open a 128 bit encrypted PDF
Private PdfDocument As using
'Get all text to put in a search index
Private AllText As String = pdf.ExtractAllText()
'Get all Images
Private AllImages As IEnumerable(Of System.Drawing.Image) = pdf.ExtractAllImages()
'Or even find the precise text and images for each page in the document
For index = 0 To pdf.PageCount - 1
Dim PageNumber As Integer = index + 1
Dim Text As String = pdf.ExtractTextFromPage(index)
Dim Images As IEnumerable(Of System.Drawing.Image) = pdf.ExtractImagesFromPage(index)
'''...
Next index
首先是 从文件 方法用于在程序中加载输入的 PDF 文档。程序会提供一个加密的 PDF 文件,需要密码才能访问该文件。之后,使用 提取所有文本 方法将所有文本数据提取到一个字符串变量中。从这里开始,PdfDocument
提供了很多功能: 输出为纯文本在 TXT 文件中转储,在数据库中存储,等等。
IronPDF 可以 从 PDF 表格中提取文本 以纳入一个或多个 CSV 文件.
第 11 行使用 提取所有图像 方法来提取 PDF 文档中的所有嵌入图像。
IronPDF 还能从特定的 PDF 页面中提取内容。上面示例中的其余几行代码演示了如何使用 从页面提取文本 和 从页面提取图像 方法来获取页面子集中的文本和图像。这两种方法都接受一个整数参数,表示所需页面的零基索引。
IronPDF 允许开发人员只需一行代码就能从 PDF 文件中提取文本和图像,使用 ExtractAllText
和 ExtractAllImages
可以立即提取 PDF 文件的全部内容。或者,调用 ExtractAllImage
或 ExtractAllText
也可以只从特定的 PDF 页面提取文本和图像。前面的示例代码展示了如何使用这两种方法从一系列页面中读取文本和图像。
此外,IronPDF 还能 渲染图 PDF 格式、 添加条形码, 利用密码提高安全性 和 水印甚至 处理 PDF 表格 编程。
IronPDF 的开发完全免费。商业用途需要付费,但您可以访问 免费试用 无偿生产。
购买 全套 两个 Iron 软件文档库的价格 ironPDF Lite 许可证.
下载 IronPDF 今天就开始从 PDF 中提取数据!