跳至页脚内容
使用IRONPDF
如何使用IronPDF从PDF中提取文本

如何在C#中从PDF中提取数据

从 PDF 中提取数据对于节省手动输入时间至关重要。 本文说明了开发人员如何使用 IronPDF 库从 PDF 文档中提取文本和图像

IronPDF:C# PDF 库

IronPDF 是一个可以用来创建、编辑和转换 PDF 文件的 .NET 库。 它为开发人员在其应用中提供了易于使用的 API。 它是全球创建、编辑和转换 PDF 文件的最受欢迎的库之一。 使用 IronPDF,您可以创建直截了当且快速的 PDF 解决方案。 您的文字将针对每个文档进行定制您的布局将被设置为便于阅读,并且您的图形将得到 .NET 程序的帮助进行设计。

IronPDF 库具有从 PDF 文件中提取数据的出色功能。 本文将研究如何使用 IronPDF 提取数据。 首先,需要创建或打开一个 C# 项目。 让我们进入下一部分。

在 Visual Studio 中创建或打开一个 C# 项目

本教程建议使用最新版本的 Visual Studio。

打开 Visual Studio 后,按照下面的步骤创建一个新的 C# 项目。 如果已有您想使用的项目,则跳过这些步骤并直接进入下一部分。

  • 打开 Visual Studio
  • 点击"创建一个新项目"按钮。

如何在C#中从PDF中提取数据,图1:Visual Studio打开界面 Visual Studio 打开 UI

  • 从模板中选择"C# 控制台应用程序"。

如何在C#中从PDF中提取数据,图2:创建新项目 创建一个新项目

  • 为项目命名,并点击下一步按钮。
  • 根据项目的需求选择一个 .NET Framework,并点击创建按钮。

如何在C#中从PDF中提取数据,图3:选择.NET Framework .NET Framework选择

Visual Studio 将生成一个新的 C# .NET 项目。

安装IronPDF库

IronPDF库可以通过多种方式安装。

使用包管理器控制台

  • 通过转到 工具 > NuGet 包管理器 > 包管理器控制台打开包管理器控制台。
  • 运行以下命令来安装 IronPDF 库:
Install-Package IronPdf

如何在C#中从PDF中提取数据,图4:在包管理器控制台选项卡中安装进度 包管理器控制台选项卡中的安装进度

安装完成后,您将在解决方案资源管理器的dependencies部分看到IronPDF的依赖项,如下所示。

如何在C#中从PDF中提取数据,图5:在解决方案资源管理器中引用IronPdf包 解决方案资源管理器中引用 IronPDF 包

使用 NuGet 包管理器

另一种安装 IronPDF 库的方法是使用 Visual Studio 集成的 NuGet 包管理器 UI。

  • 从主菜单中转到工具。 从下拉菜单中悬停在"NuGet 包管理器"上并选择"管理解决方案的 NuGet 包..."。

如何在C#中从PDF中提取数据,图6:导航到NuGet包管理器 导航到 NuGet 包管理器

  • 这将打开NuGet包管理器窗口。 请转到浏览选项卡,在搜索中输入IronPdf,然后按Enter。
  • 从搜索结果中选择 IronPDF,并点击"安装"按钮开始安装。

如何在C#中从PDF中提取数据,图7:从NuGet包管理器安装IronPdf包 从NuGet包管理器安装IronPDF包

从 PDF 文件中提取数据

让我们看看下面的代码,了解如何使用 IronPDF 提取数据:

// Import necessary namespaces
using IronPdf;
using System.Collections.Generic;
using System.Drawing;

public class PDFExtractor
{
    public void ExtractDataFromPDF()
    {
        // Open a 128-bit encrypted PDF file by providing the filename and password
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Extract all text from the PDF document
        string allText = pdf.ExtractAllText();

        // Extract all images from the PDF document
        IEnumerable<Image> allImages = pdf.ExtractAllImages();

        // Iterate over each page in the PDF document
        for (var index = 0; index < pdf.PageCount; index++)
        {
            int pageNumber = index + 1;

            // Extract text from the specific page
            string text = pdf.ExtractTextFromPage(index);

            // Extract images from the specific page
            IEnumerable<Image> images = pdf.ExtractImagesFromPage(index);

            // Code to process the extracted text and images
            //...
        }
    }
}
// Import necessary namespaces
using IronPdf;
using System.Collections.Generic;
using System.Drawing;

public class PDFExtractor
{
    public void ExtractDataFromPDF()
    {
        // Open a 128-bit encrypted PDF file by providing the filename and password
        using PdfDocument pdf = PdfDocument.FromFile("encrypted.pdf", "password");

        // Extract all text from the PDF document
        string allText = pdf.ExtractAllText();

        // Extract all images from the PDF document
        IEnumerable<Image> allImages = pdf.ExtractAllImages();

        // Iterate over each page in the PDF document
        for (var index = 0; index < pdf.PageCount; index++)
        {
            int pageNumber = index + 1;

            // Extract text from the specific page
            string text = pdf.ExtractTextFromPage(index);

            // Extract images from the specific page
            IEnumerable<Image> images = pdf.ExtractImagesFromPage(index);

            // Code to process the extracted text and images
            //...
        }
    }
}
$vbLabelText   $csharpLabel

在这个代码示例中:

  1. FromFile方法用于加载加密并需要密码的输入PDF文档。
  2. ExtractAllText方法提取PDF中的所有文本内容。
  3. ExtractAllImages方法获取所有嵌入的图像。
  4. 使用ExtractImagesFromPage,循环遍历文档的每一页以提取该页的文本和图像。

结论

IronPDF 允许开发人员轻松地从 PDF 文件中提取文本和图像。 使用ExtractAllImages,可以立即提取PDF文件的全部内容。 或者,可以使用这些方法从特定页面提取内容。 前面的代码演示了如何使用这两种方法从多个页面读取文本和图像。

此外,IronPDF 提供了如渲染图表添加条形码使用密码增强安全性水印和程序化处理 PDF 表单等功能。

IronPDF 在开发期间可免费使用,但需要付费才能进行商业用途。 可免费使用IronPDF 的试用版以进行生产使用。

购买[Iron Software 文档库的完整套件](Iron Suite),仅需支付两个IronPDF Lite 授权的费用。

立即下载 IronPDF,现在开始从 PDF 中提取数据吧!

常见问题解答

如何在C#中从PDF中提取文本?

您可以使用 IronPDF 的 ExtractAllText 方法从 PDF 文档中提取所有文本。此方法通过允许轻松访问 PDF 的文本内容来简化流程。

使用 C# 从 PDF 中提取图像的过程是什么?

使用 IronPDF,您可以通过利用 ExtractAllImages 方法从 PDF 中提取图像。此方法有效地检索 PDF 文件中所有嵌入的图像。

如何在 C# 项目中安装 PDF 操作库?

要在 C# 项目中安装 IronPDF,可以使用包管理控制台通过命令 Install-Package IronPDF 或通过 Visual Studio 中的 NuGet 包管理器 UI 来安装该包。

在 C# 中处理加密 PDF 是否可能?

是的,IronPDF 允许您通过使用 FromFile 方法打开和操作加密的 PDF 文件,您可以提供文件名和密码以访问内容。

我可以从 PDF 的特定页面提取数据吗?

IronPDF 使您能够迭代 PDF 文档的每一页,并使用像 ExtractTextFromPageExtractImagesFromPage 这样的方法从特定页面提取数据。

C# PDF 库提供了哪些附加功能?

除了数据提取外,IronPDF 还提供绘制图表、添加条形码、使用密码增强文档安全性、水印以及以编程方式处理 PDF 表单等功能。

如何在C#中将HTML转换为PDF?

您可以使用 IronPDF 的 RenderHtmlAsPdf 方法将 HTML 字符串转换为 PDF,这对于从网页内容创建 PDF 文档特别有用。

C# PDF 库是否有试用版可用?

IronPDF 在开发期间免费使用,允许您测试其功能。用于生产用途需要商业许可证,但也提供免费试用。

我如何开始使用 C# 库从 PDF 提取数据?

要开始使用 IronPDF 提取数据,请下载库,在 Visual Studio 中创建或打开 C# 项目,安装 IronPDF,并遵循代码示例以高效提取 PDF 中的文本和图像。

.NET 10 兼容性:我可以在 .NET 10 中使用 IronPDF 的数据提取功能吗?

是的——IronPDF 完全支持 .NET 10,包括其数据提取功能,例如提取文本和图像。您无需特殊配置即可在 .NET 10 项目中使用 IronPDF。它支持 .NET 10、.NET 9、.NET 8 及更早版本,以及 .NET Standard 和 .NET Framework。(ironpdf.com)

Curtis Chau
技术作家

Curtis Chau 拥有卡尔顿大学的计算机科学学士学位,专注于前端开发,精通 Node.js、TypeScript、JavaScript 和 React。他热衷于打造直观且美观的用户界面,喜欢使用现代框架并创建结构良好、视觉吸引力强的手册。

除了开发之外,Curtis 对物联网 (IoT) 有浓厚的兴趣,探索将硬件和软件集成的新方法。在空闲时间,他喜欢玩游戏和构建 Discord 机器人,将他对技术的热爱与创造力相结合。

Iron Support Team

We're online 24 hours, 5 days a week.
Chat
Email
Call Me