在实际环境中测试
在生产中测试无水印。
随时随地为您服务。
PDF(便携式文档格式)文件在无数行业中发挥着重要作用,使企业能够安全地共享、存储和管理文件。 对于开发人员来说,使用 PDF 文件通常涉及创建、阅读、转换和提取内容,以支持客户需求。 从 PDF 中提取文本对于数据分析、文档索引、内容迁移或启用可访问性功能等任务至关重要。 现代库,如IronPDF通过使用《PDF Converter》,这些任务比以往任何时候都要简单,它提供了功能强大的工具,可让您以最小的工作量处理 PDF 文件。
本指南侧重于最常见的需求之一:用 C# 从 PDF 中提取文本。 我们将引导您在 Visual Studio 中设置一个项目,安装 IronPdf,并通过简明的代码示例使用它执行文本提取。 在翻译过程中,我们将重点介绍 IronPDF 的强大功能,包括使用 .NET 创建、处理和转换 PDF 文件的能力。 无论您是在构建文档繁重的应用程序,还是仅仅需要高效的 PDF 处理,本教程都将助您一臂之力。
IronPdf 是一款功能强大的 PDF 转换器,几乎可以执行浏览器可以执行的任何操作。 使用面向开发人员的 .NET 库,创建、阅读和操作 PDF 文档非常简单。 IronPDF 使用 Chrome 引擎将 HTML 文档转换为 PDF 文档。IronPdf 支持 HTML、ASPX、Razor HTML 和 MVC View 等网络组件。 IronPDF 支持 Microsoft .NET 应用程序(ASP.NET 网络应用程序和传统的 Windows 应用程序). IronPDF 还可用于创建具有视觉吸引力的 PDF 文档。
我们可以用 IronPDF 将 HTML5、JavaScript、CSS 和图片制作成 PDF 文档。 此外,文件可以有页眉和页脚。 多亏了 IronPDF,我们才能轻松阅读 PDF 文档。 IronPDF 还拥有全面的 PDF 转换引擎和强大的 HTML 到 PDF 转换器,可以处理 PDF 文档。
打开 Visual Studio 软件,进入 "文件 "菜单。 选择 "新建项目",然后选择 "控制台应用程序"。 在本文中,我们将使用控制台应用程序生成 PDF 文档。
在Visual Studio中创建一个新项目
在相应文本框中输入项目名称并选择文件路径。 然后,单击"创建"按钮,选择所需的 .NET Framework,如下面的截图所示。
在 Visual Studio 中配置新项目
Visual Studio 项目现在将为所选应用程序生成结构,如果您选择了控制台、Windows 和 Web 应用程序,它将打开 program.cs
文件,您可以在其中输入代码并构建/运行应用程序。
选择 .NET Core
接下来,我们可以添加库来测试代码。
IronPDF 库可以通过四种方式下载和安装。
它们是
Visual Studio 软件提供了 NuGet 软件包管理器选项,可直接将软件包安装到解决方案中。 下面的截图显示了如何打开 NuGet 包管理器。
Visual Studio program.cs 文件
它提供了搜索框来显示 NuGet 网站上的软件包列表。在软件包管理器中,我们需要搜索关键词 "IronPdf",如下截图所示。
NuGet软件包管理器
在上图中,我们可以看到相关搜索项的列表。 我们需要选择所需的选项,将软件包安装到解决方案中。
在 Visual Studio 中,转到工具 > NuGet 包管理器 > 包管理器控制台
在软件包管理器控制台选项卡中输入以下一行:
Install-Package IronPdf
现在,软件包将下载/安装到当前项目,并可随时使用。
NuGet 软件包管理器中的 IronPdf 库**
第三种方法是下载IronPDF NuGet 软件包直接从其网站获取。
参观IronPDF 官方网站您可以直接从他们的网站下载最新的软件包。下载完成后,请按照以下步骤将软件包添加到项目中。
IronPDF 程序允许我们从 PDF 文件中进行文本提取,并将 PDF 页面转换为 PDF 对象。 下面举例说明如何使用 IronPDF 读取现有 PDF。
第一种方法是从 PDF 中提取文本,示例代码片段如下。
using IronPdf;
var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
using IronPdf;
var pdfDocument = PdfDocument.FromFile("result.pdf");
string AllText = pdfDocument.ExtractAllText();
Imports IronPdf
Private pdfDocument = PdfDocument.FromFile("result.pdf")
Private AllText As String = pdfDocument.ExtractAllText()
"(《世界人权宣言》)从文件静态方法用于从现有文件加载 PDF 文档,并将其转换为PDFDocument如上代码所示,我们需要翻译的是.NET、Java、Python 或 Node.js 对象。 我们可以使用此对象阅读 PDF 页面上可访问的文本和图像。 该对象有一个名为提取所有文本我们可以使用 "提取 "工具,它可以从整个 PDF 文档中提取所有文本,然后将提取的文本保存为字符串,我们可以使用该字符串进行处理。
下面是第二种方法的代码示例,我们可以使用这种方法从 PDF 文件中逐页提取文本。
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
string Text = pdf.ExtractTextFromPage(index);
}
using PdfDocument pdf = PdfDocument.FromFile("result.pdf");
for (var index = 0; index < pdf.PageCount; index++)
{
string Text = pdf.ExtractTextFromPage(index);
}
Using pdf As PdfDocument = PdfDocument.FromFile("result.pdf")
For index = 0 To pdf.PageCount - 1
Dim Text As String = pdf.ExtractTextFromPage(index)
Next index
End Using
在上面的代码中,我们看到它将首先加载整个 PDF 文档并将其转换为 PDF 对象。 然后,我们使用一种名为 "Page Count "的内置方法来获取整个 PDF 文档的页数。页数点击"......",这将检索已加载 PDF 文档的可用总页数。 使用 "for 循环 "和从页面提取文本该功能允许我们将页码作为参数传递,以便从加载的文档中提取文本。 然后将准确的文本保存到字符串变量中。 同样,它还将借助 "for "或 "for each "循环从 PDF 中逐页提取文本。
IronPDF for .NET 是一个多功能、功能强大的 PDF 库,旨在使 .NET 应用程序中的 PDF 工作无缝进行。 其强大的功能使开发人员能够创建、处理和提取 PDF 中的内容,而无需依赖 Adobe Reader 等第三方依赖程序。 IronPdf 的突出功能之一是从 PDF 文档中提取文本。 该功能对于自动执行数据分析、文档索引、内容迁移和启用可访问性功能等任务非常宝贵。 通过允许开发人员以编程方式检索和处理文本,IronPDF 简化了工作流程,为处理 PDF 内容开辟了新的可能性。
IronPDF 具有直接集成和跨平台支持的特点,是寻求高效处理 PDF 文档的开发人员的绝佳选择。 此外,IronPDF 还提供了一个免费试用此外,译文还应让您在无风险的情况下了解这些工具的全部功能。 有关定价详情和许可选项的更多信息,请访问我们的定价页.