如何在C#中从PDF中提取数据
从 PDF 中提取数据对于节省手动输入时间至关重要。 本文说明了开发人员如何使用 IronPDF 库从 PDF 文档中提取文本和图像。
如何在C#中从PDF中提取数据
- 从 PDF 中提取数据 C# 库
- 在Visual Studio中创建一个新项目
- 将库安装到您的项目中
- 从特定页面提取数据并从 PDF 中提取特定内容
- 查看 PDF 文档中的数据输出
IronPDF:C# PDF 库
IronPDF 是一个可以用来创建、编辑和转换 PDF 文件的 .NET 库。 它为开发人员在其应用中提供了易于使用的 API。 它是全球创建、编辑和转换 PDF 文件的最受欢迎的库之一。 使用 IronPDF,您可以创建直截了当且快速的 PDF 解决方案。 您的文字将针对每个文档进行定制,您的布局将被设置为便于阅读,并且您的图形将得到 .NET 程序的帮助进行设计。
IronPDF 库具有从 PDF 文件中提取数据的出色功能。 本文将研究如何使用 IronPDF 提取数据。 首先,需要创建或打开一个 C# 项目。 让我们进入下一部分。
在 Visual Studio 中创建或打开一个 C# 项目
本教程建议使用最新版本的 Visual Studio。
打开 Visual Studio 后,按照下面的步骤创建一个新的 C# 项目。 如果已有您想使用的项目,则跳过这些步骤并直接进入下一部分。
- 打开 Visual Studio
- 点击"创建一个新项目"按钮。
Visual Studio 打开 UI
- 从模板中选择"C# 控制台应用程序"。
创建一个新项目
- 为项目命名,并点击下一步按钮。
- 根据项目的需求选择一个 .NET Framework,并点击创建按钮。
.NET 框架选择
Visual Studio 将生成一个新的 C# .NET 项目。
安装IronPDF库
IronPDF库可以通过多种方式安装。
使用包管理器控制台
- 通过转到 工具 > NuGet 包管理器 > 包管理器控制台打开包管理器控制台。
- 运行以下命令来安装 IronPDF 库:
Install-Package IronPdf
包管理器控制台选项卡中的安装进度
安装后,您将在解决方案资源管理器的 依赖项 部分看到 IronPDF 依赖项,如下所示。
解决方案资源管理器中引用 IronPdf 包
使用 NuGet 包管理器
另一种安装 IronPDF 库的方法是使用 Visual Studio 集成的 NuGet 包管理器 UI。
- 从主菜单中转到工具。 从下拉菜单中悬停在"NuGet 包管理器"上并选择"管理解决方案的 NuGet 包..."。
导航到 NuGet 包管理器
- 这将打开NuGet包管理器窗口。 转到浏览选项卡,在搜索中写入
IronPdf,然后按 Enter。 - 从搜索结果中选择 IronPDF,并点击"安装"按钮开始安装。
从NuGet包管理器安装IronPdf包
从 PDF 文件中提取数据
让我们看看下面的代码,了解如何使用 IronPDF 提取数据:
// Import necessary namespaces
using IronPdf;
using System.Collections.Generic;
using System.Drawing;
public class PDFExtractor
{
public void ExtractDataFromPDF()
{
// Open a 128-bit encrypted PDF file by providing the filename and password
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Extract all text from the PDF document
string allText = pdf.ExtractAllText();
// Extract all images from the PDF document
IEnumerable<Image> allImages = pdf.ExtractAllImages();
// Iterate over each page in the PDF document
for (var index = 0; index < pdf.PageCount; index++)
{
int pageNumber = index + 1;
// Extract text from the specific page
string text = pdf.ExtractTextFromPage(index);
// Extract images from the specific page
IEnumerable<Image> images = pdf.ExtractImagesFromPage(index);
// Code to process the extracted text and images
//...
}
}
}// Import necessary namespaces
using IronPdf;
using System.Collections.Generic;
using System.Drawing;
public class PDFExtractor
{
public void ExtractDataFromPDF()
{
// Open a 128-bit encrypted PDF file by providing the filename and password
using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");
// Extract all text from the PDF document
string allText = pdf.ExtractAllText();
// Extract all images from the PDF document
IEnumerable<Image> allImages = pdf.ExtractAllImages();
// Iterate over each page in the PDF document
for (var index = 0; index < pdf.PageCount; index++)
{
int pageNumber = index + 1;
// Extract text from the specific page
string text = pdf.ExtractTextFromPage(index);
// Extract images from the specific page
IEnumerable<Image> images = pdf.ExtractImagesFromPage(index);
// Code to process the extracted text and images
//...
}
}
}在这个代码示例中:
- 使用
FromFile方法加载加密并需要密码的输入 PDF 文档。 ExtractAllText方法提取 PDF 中的所有文本内容。ExtractAllImages方法获取所有嵌入图像。- 循环遍历文档的每个页面,使用
ExtractTextFromPage和ExtractImagesFromPage提取该特定页面的文本和图像。
结论
IronPDF 允许开发人员轻松地从 PDF 文件中提取文本和图像。 使用 ExtractAllText 和 ExtractAllImages 可以立即提取整个 PDF 文件的内容。 或者,可以使用这些方法从特定页面提取内容。 前面的代码演示了如何使用这两种方法从多个页面读取文本和图像。
此外,IronPDF 提供了如渲染图表、添加条形码、使用密码增强安全性、水印和程序化处理 PDF 表单等功能。
IronPDF 在开发期间可免费使用,但需要付费才能进行商业用途。 可免费使用IronPDF 的试用版以进行生产使用。
购买[Iron Software 文档库的完整套件](Iron Suite),仅需支付两个IronPDF Lite 授权的费用。
常见问题解答
如何在C#中从PDF中提取文本?
您可以使用 IronPDF 的 ExtractAllText 方法从 PDF 文档中提取所有文本。此方法通过允许轻松访问 PDF 的文本内容来简化流程。
使用 C# 从 PDF 中提取图像的过程是什么?
使用 IronPDF,您可以通过利用 ExtractAllImages 方法从 PDF 中提取图像。此方法有效地检索 PDF 文件中所有嵌入的图像。
如何在 C# 项目中安装 PDF 操作库?
要在 C# 项目中安装 IronPDF,可以使用包管理控制台通过命令 Install-Package IronPdf 或通过 Visual Studio 中的 NuGet 包管理器 UI 来安装该包。
在 C# 中处理加密 PDF 是否可能?
是的,IronPDF 允许您通过使用 FromFile 方法打开和操作加密的 PDF 文件,您可以提供文件名和密码以访问内容。
我可以从 PDF 的特定页面提取数据吗?
IronPDF 使您能够迭代 PDF 文档的每一页,并使用像 ExtractTextFromPage 和 ExtractImagesFromPage 这样的方法从特定页面提取数据。
C# PDF 库提供了哪些附加功能?
除了数据提取外,IronPDF 还提供绘制图表、添加条形码、使用密码增强文档安全性、水印以及以编程方式处理 PDF 表单等功能。
如何在C#中将HTML转换为PDF?
您可以使用 IronPDF 的 RenderHtmlAsPdf 方法将 HTML 字符串转换为 PDF,这对于从网页内容创建 PDF 文档特别有用。
C# PDF 库是否有试用版可用?
IronPDF 在开发期间免费使用,允许您测试其功能。用于生产用途需要商业许可证,但也提供免费试用。
我如何开始使用 C# 库从 PDF 提取数据?
要开始使用 IronPDF 提取数据,请下载库,在 Visual Studio 中创建或打开 C# 项目,安装 IronPDF,并遵循代码示例以高效提取 PDF 中的文本和图像。
.NET 10 兼容性:我可以在 .NET 10 中使用 IronPDF 的数据提取功能吗?
是的——IronPDF 完全支持 .NET 10,包括其数据提取功能,例如提取文本和图像。您无需特殊配置即可在 .NET 10 项目中使用 IronPDF。它支持 .NET 10、.NET 9、.NET 8 及更早版本,以及 .NET Standard 和 .NET Framework。(ironpdf.com)







