使用IRONPDF 如何在C#中从PDF中提取数据 Curtis Chau 已更新:八月 20, 2025 Download IronPDF NuGet 下载 DLL 下载 Windows 安装程序 Start Free Trial Copy for LLMs Copy for LLMs Copy page as Markdown for LLMs Open in ChatGPT Ask ChatGPT about this page Open in Gemini Ask Gemini about this page Open in Grok Ask Grok about this page Open in Perplexity Ask Perplexity about this page Share Share on Facebook Share on X (Twitter) Share on LinkedIn Copy URL Email article role="alert">您的企业在 PDF 安全和合规的年度订阅上花费过多。考虑 IronSecureDoc,它提供一站式支付的解决方案来管理数字签名、编辑、加密、保护等 SaaS 服务。了解更多关于 IronSecureDoc 的信息 从 PDF 中提取数据对于节省手动输入时间至关重要。 本文说明了开发人员如何使用 IronPDF 库从 PDF 文档中提取文本和图像。 class="hsg-featured-snippet"> 如何在 C# 中从 PDF 提取数据 下载 PDF C# 库的提取数据 在 Visual Studio 中创建一个新项目 将库安装到您的项目中 提取特定页面的数据并从 PDF 中提取特定数据 查看 PDF 文档中的数据输出 探索 IronPDF 用于 PDF 管理 是一个为使用 C# 编程语言的开发人员提供的工具,允许他们在其应用程序内部直接创建、读取和编辑 PDF 文档。 IronPDF 是一个可以用来创建、编辑和转换 PDF 文件的 .NET 库。 它为开发人员在其应用中提供了易于使用的 API。 它是全球创建、编辑和转换 PDF 文件的最受欢迎的库之一。 使用 IronPDF,您可以创建直截了当且快速的 PDF 解决方案。 Your text will be customized for each document, 您的布局将被设置为便于阅读,并且您的图形将得到 .NET 程序的帮助进行设计。 IronPDF 库具有从 PDF 文件中提取数据的出色功能。 本文将研究如何使用 IronPDF 提取数据。 首先,需要创建或打开一个 C# 项目。 让我们进入下一部分。 在 Visual Studio 中创建或打开一个 C# 项目 本教程建议使用最新版本的 Visual Studio。 打开 Visual Studio 后,按照下面的步骤创建一个新的 C# 项目。 如果已有您想使用的项目,则跳过这些步骤并直接进入下一部分。 打开 Visual Studio 点击“创建一个新项目”按钮。 Visual Studio 打开 UI 从模板中选择“C# 控制台应用程序”。 创建一个新项目 为项目命名,并点击下一步按钮。 根据项目的需求选择一个 .NET Framework,并点击创建按钮。 .NET 框架选择 Visual Studio 将生成一个新的 C# .NET 项目。 安装IronPDF库 IronPDF库可以通过多种方式安装。 使用包管理器控制台 通过转到 工具 > NuGet 包管理器 > 包管理器控制台打开包管理器控制台。 运行以下命令来安装 IronPDF 库: Install-Package IronPdf 包管理器控制台选项卡中的安装进度 安装后,您将在解决方案资源管理器的 依赖项 部分看到 IronPDF 依赖项,如下所示。 解决方案资源管理器中引用 IronPdf 包 使用 NuGet 包管理器 另一种安装 IronPDF 库的方法是使用 Visual Studio 集成的 NuGet 包管理器 UI。 从主菜单中转到工具。 从下拉菜单中悬停在“NuGet 包管理器”上并选择“管理解决方案的 NuGet 包...”。 导航到NuGet包管理器 这将打开NuGet包管理器窗口。 转到浏览选项卡,在搜索中写入 IronPdf,然后按 Enter。 从搜索结果中选择 IronPDF,并点击“安装”按钮开始安装。 从NuGet包管理器安装IronPdf包 从 PDF 文件中提取数据 让我们看看下面的代码,了解如何使用 IronPDF 提取数据: // Import necessary namespaces using IronPdf; using System.Collections.Generic; using System.Drawing; public class PDFExtractor { public void ExtractDataFromPDF() { // Open a 128-bit encrypted PDF file by providing the filename and password using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password"); // Extract all text from the PDF document string allText = pdf.ExtractAllText(); // Extract all images from the PDF document IEnumerable<Image> allImages = pdf.ExtractAllImages(); // Iterate over each page in the PDF document for (var index = 0; index < pdf.PageCount; index++) { int pageNumber = index + 1; // Extract text from the specific page string text = pdf.ExtractTextFromPage(index); // Extract images from the specific page IEnumerable<Image> images = pdf.ExtractImagesFromPage(index); // Code to process the extracted text and images //... } } } // Import necessary namespaces using IronPdf; using System.Collections.Generic; using System.Drawing; public class PDFExtractor { public void ExtractDataFromPDF() { // Open a 128-bit encrypted PDF file by providing the filename and password using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password"); // Extract all text from the PDF document string allText = pdf.ExtractAllText(); // Extract all images from the PDF document IEnumerable<Image> allImages = pdf.ExtractAllImages(); // Iterate over each page in the PDF document for (var index = 0; index < pdf.PageCount; index++) { int pageNumber = index + 1; // Extract text from the specific page string text = pdf.ExtractTextFromPage(index); // Extract images from the specific page IEnumerable<Image> images = pdf.ExtractImagesFromPage(index); // Code to process the extracted text and images //... } } } ' Import necessary namespaces Imports IronPdf Imports System.Collections.Generic Imports System.Drawing Public Class PDFExtractor Public Sub ExtractDataFromPDF() ' Open a 128-bit encrypted PDF file by providing the filename and password Using pdf As PdfDocument = PdfDocument.FromFile("encrypted.pdf", "password") ' Extract all text from the PDF document Dim allText As String = pdf.ExtractAllText() ' Extract all images from the PDF document Dim allImages As IEnumerable(Of Image) = pdf.ExtractAllImages() ' Iterate over each page in the PDF document For index = 0 To pdf.PageCount - 1 Dim pageNumber As Integer = index + 1 ' Extract text from the specific page Dim text As String = pdf.ExtractTextFromPage(index) ' Extract images from the specific page Dim images As IEnumerable(Of Image) = pdf.ExtractImagesFromPage(index) ' Code to process the extracted text and images '... Next index End Using End Sub End Class $vbLabelText $csharpLabel 在这个代码示例中: 使用 FromFile 方法加载加密并需要密码的输入 PDF 文档。 ExtractAllText 方法提取 PDF 中的所有文本内容。 ExtractAllImages 方法获取所有嵌入图像。 循环遍历文档的每个页面,使用 ExtractTextFromPage 和 ExtractImagesFromPage 提取该特定页面的文本和图像。 结论 IronPDF 允许开发人员轻松地从 PDF 文件中提取文本和图像。 使用 ExtractAllText 和 ExtractAllImages 可以立即提取整个 PDF 文件的内容。 或者,可以使用这些方法从特定页面提取内容。 前面的代码演示了如何使用这两种方法从多个页面读取文本和图像。 Additionally, IronPDF offers features like rendering charts, adding barcodes, enhancing security with passwords, watermarking, and handling PDF forms programmatically. IronPDF 在开发期间可免费使用,但需要付费才能进行商业用途。 可免费使用IronPDF 的试用版以进行生产使用。 Purchase the full suite of Iron Software's document libraries for the cost of two IronPDF Lite Licenses. 立即下载 IronPDF,现在开始从 PDF 中提取数据吧! 常见问题解答 如何在C#中从PDF中提取文本? 您可以使用 IronPDF 的 ExtractAllText 方法从 PDF 文档中提取所有文本。此方法通过允许轻松访问 PDF 的文本内容来简化流程。 使用 C# 从 PDF 中提取图像的过程是什么? 使用 IronPDF,您可以通过利用 ExtractAllImages 方法从 PDF 中提取图像。此方法有效地检索 PDF 文件中所有嵌入的图像。 如何在 C# 项目中安装 PDF 操作库? 要在 C# 项目中安装 IronPDF,可以使用包管理控制台通过命令 Install-Package IronPdf 或通过 Visual Studio 中的 NuGet 包管理器 UI 来安装该包。 在 C# 中处理加密 PDF 是否可能? 是的,IronPDF 允许您通过使用 FromFile 方法打开和操作加密的 PDF 文件,您可以提供文件名和密码以访问内容。 我可以从 PDF 的特定页面提取数据吗? IronPDF 使您能够迭代 PDF 文档的每一页,并使用像 ExtractTextFromPage 和 ExtractImagesFromPage 这样的方法从特定页面提取数据。 C# PDF 库提供了哪些附加功能? 除了数据提取外,IronPDF 还提供绘制图表、添加条形码、使用密码增强文档安全性、水印以及以编程方式处理 PDF 表单等功能。 如何在C#中将HTML转换为PDF? 您可以使用 IronPDF 的 RenderHtmlAsPdf 方法将 HTML 字符串转换为 PDF,这对于从网页内容创建 PDF 文档特别有用。 C# PDF 库是否有试用版可用? IronPDF 在开发期间免费使用,允许您测试其功能。用于生产用途需要商业许可证,但也提供免费试用。 我如何开始使用 C# 库从 PDF 提取数据? 要开始使用 IronPDF 提取数据,请下载库,在 Visual Studio 中创建或打开 C# 项目,安装 IronPDF,并遵循代码示例以高效提取 PDF 中的文本和图像。 .NET 10 兼容性:我可以在 .NET 10 中使用 IronPDF 的数据提取功能吗? 是的——IronPDF 完全支持 .NET 10,包括其数据提取功能,例如提取文本和图像。您无需特殊配置即可在 .NET 10 项目中使用 IronPDF。它支持 .NET 10、.NET 9、.NET 8 及更早版本,以及 .NET Standard 和 .NET Framework。(ironpdf.com) Curtis Chau 立即与工程团队聊天 技术作家 Curtis Chau 拥有卡尔顿大学的计算机科学学士学位,专注于前端开发,精通 Node.js、TypeScript、JavaScript 和 React。他热衷于打造直观且美观的用户界面,喜欢使用现代框架并创建结构良好、视觉吸引力强的手册。除了开发之外,Curtis 对物联网 (IoT) 有浓厚的兴趣,探索将硬件和软件集成的新方法。在空闲时间,他喜欢玩游戏和构建 Discord 机器人,将他对技术的热爱与创造力相结合。 相关文章 已发布十一月 13, 2025 如何在 C# 中合并两个 PDF 字节数组 使用 IronPDF 在 C# 中合并两个 PDF 字节数组。学习通过简单的代码示例从字节数组、内存流和数据库合并多个 PDF 文件。 阅读更多 已发布十一月 13, 2025 如何创建 ASP.NET MVC PDF 查看器 为 ASP.NET MVC 应用程序构建一个强大的 PDF 查看器。显示 PDF 文档,将视图转换为 PDF,并使用 IronPDF 添加交互功能。 阅读更多 已发布十一月 13, 2025 如何构建 .NET HTML 到 PDF 转换器 学习如何使用 IronPDF 在 .NET 中将 HTML 转换为 PDF。 阅读更多 C#从PDF中提取文本(代码示例教程)如何使用C#在PDF中添加页码
已发布十一月 13, 2025 如何在 C# 中合并两个 PDF 字节数组 使用 IronPDF 在 C# 中合并两个 PDF 字节数组。学习通过简单的代码示例从字节数组、内存流和数据库合并多个 PDF 文件。 阅读更多
已发布十一月 13, 2025 如何创建 ASP.NET MVC PDF 查看器 为 ASP.NET MVC 应用程序构建一个强大的 PDF 查看器。显示 PDF 文档,将视图转换为 PDF,并使用 IronPDF 添加交互功能。 阅读更多