PDF 工具

IronPDF vs ChatGPT - 从PDF文档提取文本

更新 2024年八月13日
分享:

什么是 ChatGPT?

ChatGPT 是 OpenAI 于 2022 年发布的基于大型语言模型的聊天机器人。它的显著特点是能让用户创建对话,并将对话塑造成所需的结构、风格、细节和语言。 每个讨论点都要考虑到使用 OpenAI API 密钥时的语境,即考虑到先前的提示和响应,或 "提示工程"。

ChatGPT 的基础是转换器模型,这些模型是 OpenAI 独家预训练生成转换器系列的一部分。 然后,结合监督和强化学习方法,针对会话应用对这些模型进行优化。 ChatGPT AI 语言模型最初是作为免费研究预览版发布的,由于广受欢迎,现在由 OpenAI 免费提供。 基于 GPT-4 的更复杂版本和更新功能的优先访问权以 "ChatGPT Plus "的品牌名称提供给付费用户,而用户可以使用 GPT-3.5 访问其免费层。

ChatGPT 可以阅读 PDF 文件吗?

是,也不是。在付费版本中,要求 ChatGPT 从 PDF 文档中提取文本非常简单,只需将文件上传到聊天框,然后要求它从 PDF 内容中提取文本或摘要即可。

不过,这也不是没有缺点。 ChatGPT 将以纯文本形式提供信息,这意味着使用这些信息创建一个新的 PDF 文档需要手动操作。 可以让 ChatGPT 从提取的文本中创建一个新的 PDF 文件,但容易出现格式问题和下载链接故障。 此外,ChatGPT 的自定义功能有限,例如,经常会出现要求在文档中添加页眉和页脚的问题。

截至目前,ChatGPT 的免费层不支持文件附件,这意味着无法要求它读取 PDF。

什么是IronPDF?

IronPDF 的开发目的是为了在 .NET Framework 中轻松创建、浏览和编辑 PDF 文件。 除了作为功能强大的 PDF 转换器之外,它还包括一个强大的 API,用于生成、编辑和更改 PDF 文件。 Xamarin、Blazor、Unity、HoloLens 应用程序、Windows 窗体、HTML、ASPX、Razor、.NET Core、ASP 和 WPF 只是与 IronPDF 兼容的部分扩展。

IronPdf 利用 Chrome 引擎将 HTML 转换为 PDF。 它既支持传统的 Windows 程序,也支持使用 Microsoft.NET 和 .NET Core 的在线 ASP.NET 应用程序。 它允许您使用各种功能定制 PDF,支持 HTML5、JavaScript、CSS 和图像。

通过使用 IronPDF 库,开发人员可以在不使用 Acrobat Reader 的情况下阅读和编辑 PDF 文件。 此外,他们还可以添加文本和图形、书签、水印、页眉和页脚,以及分割和转移文本属性、合并页面,并从新的或现有的 PDF 文档中提取图像。

此外,还可以使用 CSS 和 CSS 媒体文件制作 PDF 文档。 IronPdf 允许您生成、上传和编辑 Microsoft Word 等新办公文档和过时的 PDF 表单。

使用 IronPDF 从 PDF 中提取文本

IronPDF 可让您从 PDF 中提取文本,并将其转换为各种格式。 它可以处理单个或多个 PDF 文档,还允许您从整个文档或选定页面中提取文本--让您完全控制 PDF 内容。 以下是开始工作的方法:

在 Visual Studio 中创建项目

首先,打开 Visual Studio,进入文件 -> 新项目 -> 控制台应用程序。 输入项目名称,选择要保存的位置,然后点击 "下一步 "按钮。 选择最新的 .NET Framework,然后创建。 一旦您的项目启动并运行,就可以添加我们的资料库了。

安装 IronPDF 库

IronPdf 易于使用,但安装起来更简单。 有几种方法可以做到这一点:

方法 1:NuGet 软件包管理器控制台

在 Visual Studio 的 "解决方案资源管理器 "中,右键单击 "引用",然后单击 "管理 NuGet 包"。 点击浏览并搜索 "IronPDF,并安装最新版本。 如果您看到这个,说明它正在工作:

IronPDF与ChatGPT - 从PDF文档中提取文本:图1

您也可以进入工具 -> NuGet 包管理器 -> Packet Manager 控制台,然后在 "包管理器 "选项卡中输入以下一行:

Install-Package IronPdf

最后,您可以直接从 购买IronPDF带有 IronPDF 下载说明的 NuGet 官方网站. 从页面右侧的菜单中选择 "下载软件包 "选项,双击下载即可自动安装,然后重新加载 "解决方案 "即可在项目中开始使用。

没有成功? 您可以在我们的高级 NuGet 安装方法.

方法 2:使用 DLL 文件

您也可以直接从我们这里获取 IronPdf DLL 文件,然后手动将其添加到 Visual Studio 中。 有关 Windows、MacOS 和 Linux DLL 软件包的完整说明和链接,请查看我们专门的IronPdf 安装指南.

添加 IronPDF 命名空间

请务必记住在代码开头使用 IronPDF 命名空间,如下所示:

using IronPdf;
using IronPdf;
Imports IronPdf
VB   C#

从整个 PDF 文档中提取文本

从 PDF 文档中提取文本就像两行代码一样简单。 在本代码示例中,我们将 PDF 内容转换为基于文本的格式:

var pdfDocument = IronPdf.PdfDocument.FromFile("Demo.pdf");
string AllText = pdfDocument.ExtractAllText();
var pdfDocument = IronPdf.PdfDocument.FromFile("Demo.pdf");
string AllText = pdfDocument.ExtractAllText();
Dim pdfDocument = IronPdf.PdfDocument.FromFile("Demo.pdf")
Dim AllText As String = pdfDocument.ExtractAllText()
VB   C#

让我们一起来看一下——FromFile()函数从计算机加载 PDF 文件并将其转换为 PdfDocument 对象。 在此基础上,ExtractAllText()PdfDocument 类对象的函数将检索整个 PDF 文件中的所有文本,并将其存储在可处理的字符串中。

下面是 PDF 和控制台中的文本输出:

IronPDF与ChatGPT - 从PDF文档中提取文本:图2

从PDF文档的各个页面提取文本

using IronPdf;

PdfDocument PDF = PdfDocument.FromFile("result.pdf");

for (var index = 0; index < PDF.PageCount; index++)
{
   int PageNumber = index + 1;
   string Text = PDF.ExtractTextFromPage(index);
}
using IronPdf;

PdfDocument PDF = PdfDocument.FromFile("result.pdf");

for (var index = 0; index < PDF.PageCount; index++)
{
   int PageNumber = index + 1;
   string Text = PDF.ExtractTextFromPage(index);
}
IRON VB CONVERTER ERROR developers@ironsoftware.com
VB   C#

与前面的代码类似,这里是先加载整个 PDF 文件,然后再将其转换为 PDF 对象。 PageCount 返回文件的总页数,ExtractTextFromPage 返回文件的总页数。()我们使用 "for "方法提取文本,而 "for "循环则将页面种类作为参数进行处理。 这样,我们的文本就存储在了字符串变量中。 为了逐页从 PDF 中提取信息,我们将使用 "for "和 "foreach "循环。

有关如何从 PDF 中提取嵌入式文本和图像的更多信息,请查看以下内容从 PDF 中提取文本和图像的详细指南.

IronPDF vs ChatGPT - 孰优孰劣?

有很多工具可以让您从 PDF 中提取内容,其中包括 ChatGPT。 然而,IronPdf 在构建时考虑到了定制和开发人员的控制,使其成为业界领先的 PDF 阅读器。 PDF 阅读只是一个开始--通过 HTML 到 PDF 的转换、PDF 格式化工具、内置安全性和合规性功能等,IronPDF 是满足您所有 PDF 文档需求的首选工具。

IronPdf 还拥有广泛的兼容性。 它专为 .NET 生态系统而建,支持 .NET Framework、.NET Standard 和 .NET Core 3.1 至 8,并不断更新以保持最前沿。

准备好使用 IronPDF了吗? 您可以从我们的30 天免费试用,探索 IronPDF 功能. 它还可以完全免费用于开发目的,因此您可以真正领略到它的魅力。 如果您喜欢您所看到的,IronPDF 将开始翻译。低至 $749,即可完全访问 IronPDF 工具. 如需更多优惠,请查看Iron Suite 套装提供 9 种工具,只需 2 种工具的价格. 快乐编程!

IronPDF与ChatGPT - 从PDF文档中提取文本:图3

< 前一页
如何下载网页为PDF(初学者教程)
下一步 >
如何编辑PDF中的文本(初学者教程)

准备开始了吗? 版本: 2024.12 刚刚发布

免费NuGet下载 总下载量: 11,781,565 查看许可证 >