在生产环境中测试,无水印。
随时随地满足您的需求。
获得30天的全功能产品。
几分钟内就能启动并运行。
在您的产品试用期间,全面访问我们的支持工程团队。
PDF(便携式文档格式)文件在无数行业中扮演着重要角色,使企业能够安全地分享、存储和管理文档。 对于开发人员来说,使用 PDF 文件通常涉及创建、阅读、转换和提取内容,以支持客户需求。 从 PDF 中提取文本对于数据分析、文档索引、内容迁移或启用可访问性功能等任务至关重要。 像IronPDF这样现代的库使这些任务变得比以往任何时候都更容易,提供强大的工具以最小的努力操控PDF文件。
本指南侧重于最常见的需求之一:用 C# 从 PDF 中提取文本。 我们将引导您在 Visual Studio 中设置一个项目,安装 IronPdf,并通过简明的代码示例使用它执行文本提取。 在翻译过程中,我们将重点介绍 IronPDF 的强大功能,包括使用 .NET 创建、处理和转换 PDF 文件的能力。 无论您是在构建文档繁重的应用程序,还是仅仅需要高效的 PDF 处理,本教程都将助您一臂之力。
IronPdf 是一款功能强大的 PDF 转换器,几乎可以执行浏览器可以执行的任何操作。 使用面向开发人员的 .NET 库,创建、阅读和操作 PDF 文档非常简单。 IronPDF 使用 Chrome 引擎将 HTML 文档转换为 PDF 文档。IronPdf 支持 HTML、ASPX、Razor HTML 和 MVC View 等网络组件。 Microsoft .NET 应用程序支持 IronPDF(包括 ASP.NET Web 应用程序和传统的 Windows 应用程序)。 IronPDF 还可用于创建具有视觉吸引力的 PDF 文档。
我们可以用 IronPDF 将 HTML5、JavaScript、CSS 和图片制作成 PDF 文档。 此外,文件可以有页眉和页脚。 多亏了 IronPDF,我们才能轻松阅读 PDF 文档。 IronPDF 还拥有全面的 PDF 转换引擎和强大的 HTML 到 PDF 转换器,可以处理 PDF 文档。
打开 Visual Studio 软件,进入 "文件 "菜单。 选择 "新建项目",然后选择 "控制台应用程序"。 在本文中,我们将使用控制台应用程序生成 PDF 文档。
在 Visual Studio 中创建新项目
在相应文本框中输入项目名称并选择文件路径。 然后,点击创建按钮并选择所需的.NET Framework,如下图所示。
在Visual Studio中设置新项目
Visual Studio 项目现在将为选定的应用程序生成结构,如果您选择了控制台、Windows 或 Web 应用程序,它将打开 program.cs
文件,您可以在其中输入代码并构建/运行应用程序。
选择 .NET Core
接下来,我们可以添加库来测试代码。
IronPDF 库可以通过四种方式下载和安装。
它们是
Visual Studio 软件提供了 NuGet 软件包管理器选项,可直接将软件包安装到解决方案中。 下面的截图显示了如何打开 NuGet 包管理器。
Visual Studio program.cs 文件
它提供了搜索框来显示 NuGet 网站上的软件包列表。在软件包管理器中,我们需要搜索关键词 "IronPdf",如下截图所示。
NuGet包管理器
在上图中,我们可以看到相关搜索项的列表。 我们需要选择所需的选项,将软件包安装到解决方案中。
在 Visual Studio 中,转到工具 > NuGet 包管理器 > 包管理器控制台
在软件包管理器控制台选项卡中输入以下一行:
Install-Package IronPdf
现在,软件包将下载/安装到当前项目,并可随时使用。
NuGet 包管理器中的 IronPdf 库
--LIBRARY_NUGET_INSTALL_BLOCK--
第三种方法是直接从他们的网站下载IronPDF NuGet 包。
请访问IronPDF 官网直接从他们的网站下载最新的软件包。下载后,按照以下步骤将该软件包添加到项目中。
IronPDF 程序允许我们从 PDF 文件中进行文本提取,并将 PDF 页面转换为 PDF 对象。 下面举例说明如何使用 IronPDF 读取现有 PDF。
第一种方法是从 PDF 中提取文本,示例代码片段如下。
using IronPdf;
var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
using IronPdf;
var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
Imports IronPdf
Private pdfDocument = PdfDocument.FromFile("result.pdf")
Private AllText As String = pdfDocument.ExtractAllText()
FromFile
静态方法用于从现有文件加载 PDF 文档并将其转换为 PDFDocument
对象,如上面的代码所示。 我们可以使用此对象阅读 PDF 页面上可访问的文本和图像。 该对象有一个名为ExtractAllText
的方法,该方法从整个PDF文档中提取所有文本,然后将提取的文本存储到字符串中,我们可以使用该字符串进行处理。
下面是第二种方法的代码示例,我们可以使用这种方法从 PDF 文件中逐页提取文本。
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
string Text = pdf.ExtractTextFromPage(index);
}
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
string Text = pdf.ExtractTextFromPage(index);
}
Using pdf As PdfDocument = PdfDocument.FromFile("result.pdf")
For index = 0 To pdf.PageCount - 1
Dim Text As String = pdf.ExtractTextFromPage(index)
Next index
End Using
在上面的代码中,我们看到它将首先加载整个 PDF 文档并将其转换为 PDF 对象。 然后,我们使用一个名为PageCount
的内置方法来获取整个PDF文档的页数,这将检索已加载的PDF文档中可用的总页数。 使用“for 循环”和 ExtractTextFromPage
函数可以让我们将页码作为参数传递,以从加载的文档中提取文本。 然后将准确的文本保存到字符串变量中。 同样,它还将借助 "for "或 "for each "循环从 PDF 中逐页提取文本。
IronPDF for .NET 是一个多功能、功能强大的 PDF 库,旨在使 .NET 应用程序中的 PDF 工作无缝进行。 其强大的功能使开发人员能够创建、处理和提取 PDF 中的内容,而无需依赖 Adobe Reader 等第三方依赖程序。 IronPdf 的突出功能之一是从 PDF 文档中提取文本。 该功能对于自动执行数据分析、文档索引、内容迁移和启用可访问性功能等任务非常宝贵。 通过允许开发人员以编程方式检索和处理文本,IronPDF 简化了工作流程,为处理 PDF 内容开辟了新的可能性。
IronPDF 具有直接集成和跨平台支持的特点,是寻求高效处理 PDF 文档的开发人员的绝佳选择。 此外,IronPDF 提供免费试用,让您在承诺之前无风险地探索其全部功能。 有关定价详情和了解更多许可选项,请访问我们的定价页面。
LIBRARY_GET_STARTED_WITH_PRODUCT_TRIAL_EXTENDED_BLOCK