PDF 工具

IronPDF vs ChatGPT - 从PDF文档提取文本

Chipego
奇佩戈-卡琳达
2023年八月29日
更新 2024年八月13日
分享:

什么是 ChatGPT?

ChatGPT 是 OpenAI 于 2022 年发布的基于大型语言模型的聊天机器人。它的显著特点是能让用户创建对话,并将对话塑造成所需的结构、风格、细节和语言。 每个讨论点都要考虑到使用 OpenAI API 密钥时的语境,即考虑到先前的提示和响应,或 "提示工程"。

ChatGPT 的基础是转换器模型,这些模型是 OpenAI 独家预训练生成转换器系列的一部分。 然后,结合监督和强化学习方法,针对会话应用对这些模型进行优化。 ChatGPT AI 语言模型最初是作为免费研究预览版发布的,由于广受欢迎,现在由 OpenAI 免费提供。 基于 GPT-4 的更复杂版本和更新功能的优先访问权以 "ChatGPT Plus "的品牌名称提供给付费用户,而用户可以使用 GPT-3.5 访问其免费层。

ChatGPT 可以阅读 PDF 文件吗?

是,也不是。在付费版本中,要求 ChatGPT 从 PDF 文档中提取文本非常简单,只需将文件上传到聊天框,然后要求它从 PDF 内容中提取文本或摘要即可。

不过,这也不是没有缺点。 ChatGPT 将以纯文本形式提供信息,这意味着使用这些信息创建一个新的 PDF 文档需要手动操作。 可以让 ChatGPT 从提取的文本中创建一个新的 PDF 文件,但容易出现格式问题和下载链接故障。 此外,ChatGPT 的自定义功能有限,例如,经常会出现要求在文档中添加页眉和页脚的问题。

截至目前,ChatGPT 的免费层不支持文件附件,这意味着无法要求它读取 PDF。

什么是IronPDF?

IronPDF 的开发目的是为了在 .NET Framework 中轻松创建、浏览和编辑 PDF 文件。 除了作为功能强大的 PDF 转换器之外,它还包括一个强大的 API,用于生成、编辑和更改 PDF 文件。 Xamarin、Blazor、Unity、HoloLens 应用程序、Windows 窗体、HTML、ASPX、Razor、.NET Core、ASP 和 WPF 只是与 IronPDF 兼容的部分扩展。

IronPdf 利用 Chrome 引擎将 HTML 转换为 PDF。 它既支持传统的 Windows 程序,也支持使用 Microsoft.NET 和 .NET Core 的在线 ASP.NET 应用程序。 它允许您使用各种功能定制 PDF,支持 HTML5、JavaScript、CSS 和图像。

通过使用 IronPDF 库,开发人员可以在不使用 Acrobat Reader 的情况下阅读和编辑 PDF 文件。 此外,他们还可以添加文本和图形、书签、水印、页眉和页脚,以及分割和转移文本属性、合并页面,并从新的或现有的 PDF 文档中提取图像。

此外,还可以使用 CSS 和 CSS 媒体文件制作 PDF 文档。 IronPdf 允许您生成、上传和编辑 Microsoft Word 等新办公文档和过时的 PDF 表单。

使用 IronPDF 从 PDF 中提取文本

IronPDF 可让您从 PDF 中提取文本,并将其转换为各种格式。 它可以处理单个或多个 PDF 文档,还允许您从整个文档或选定页面中提取文本--让您完全控制 PDF 内容。 以下是开始工作的方法:

在 Visual Studio 中创建项目

首先,打开 Visual Studio,进入文件 -> 新项目 -> 控制台应用程序。 输入项目名称,选择要保存的位置,然后点击 "下一步 "按钮。 选择最新的 .NET Framework,然后创建。 一旦您的项目启动并运行,就可以添加我们的资料库了。

安装 IronPDF 库

IronPdf 易于使用,但安装起来更简单。 有几种方法可以做到这一点:

方法 1:NuGet 软件包管理器控制台

在 Visual Studio 的 "解决方案资源管理器 "中,右键单击 "引用",然后单击 "管理 NuGet 包"。 点击浏览并搜索 "IronPDF,并安装最新版本。 如果您看到这个,说明它正在工作:

IronPDF与ChatGPT - 从PDF文档中提取文本:图1

您也可以进入工具 -> NuGet 包管理器 -> Packet Manager 控制台,然后在 "包管理器 "选项卡中输入以下一行:

Install-Package IronPdf

最后,您可以直接从NuGet的官方网站获取IronPDF下载说明。 从页面右侧的菜单中选择 "下载软件包 "选项,双击下载即可自动安装,然后重新加载 "解决方案 "即可在项目中开始使用。

没有成功? 您可以在我们的高级 NuGet 安装方法中找到特定于平台的帮助。

方法 2:使用 DLL 文件

您也可以直接从我们这里获取 IronPdf DLL 文件,然后手动将其添加到 Visual Studio 中。 有关完整说明和Windows、MacOS和Linux DLL软件包的链接,请查看我们专门的IronPDF安装指南

添加 IronPDF 命名空间

请务必记住在代码开头使用 IronPDF 命名空间,如下所示:

using IronPdf;
using IronPdf;

从整个 PDF 文档中提取文本

从 PDF 文档中提取文本就像两行代码一样简单。 在本代码示例中,我们将 PDF 内容转换为基于文本的格式:

var pdfDocument = IronPdf.PdfDocument.FromFile("Demo.pdf");
string AllText = pdfDocument.ExtractAllText();
var pdfDocument = IronPdf.PdfDocument.FromFile("Demo.pdf");
string AllText = pdfDocument.ExtractAllText();

让我们来详细了解一下 - FromFile() 函数从你的计算机加载 PDF 文件并将其转换为 PdfDocument 对象。 从那里,PdfDocument 类对象的 ExtractAllText() 函数提取整个 PDF 文件中的所有文本,并将其存储在可处理的字符串中。

下面是 PDF 和控制台中的文本输出:

IronPDF与ChatGPT - 从PDF文档中提取文本:图2

从PDF文档的各个页面提取文本

using IronPdf;

PdfDocument PDF = PdfDocument.FromFile("result.pdf");

for (var index = 0; index < PDF.PageCount; index++)
{
   int PageNumber = index + 1;
   string Text = PDF.ExtractTextFromPage(index);
}
using IronPdf;

PdfDocument PDF = PdfDocument.FromFile("result.pdf");

for (var index = 0; index < PDF.PageCount; index++)
{
   int PageNumber = index + 1;
   string Text = PDF.ExtractTextFromPage(index);
}

与前面的代码类似,这里是先加载整个 PDF 文件,然后再将其转换为 PDF 对象。 PageCount返回文件中的页数总数,ExtractTextFromPage()方法提取文本,而‘for’循环将页面种类作为参数处理。 这样,我们的文本就存储在了字符串变量中。 为了逐页从 PDF 中提取信息,我们将使用 "for "和 "foreach "循环。

有关如何从PDF中提取嵌入的文本和图像的更多信息,请查阅此关于从PDF中提取文本和图像的详细指南

IronPDF vs ChatGPT - 孰优孰劣?

有很多工具可以让您从 PDF 中提取内容,其中包括 ChatGPT。 然而,IronPdf 在构建时考虑到了定制和开发人员的控制,使其成为业界领先的 PDF 阅读器。 PDF 阅读只是一个开始--通过 HTML 到 PDF 的转换、PDF 格式化工具、内置安全性和合规性功能等,IronPDF 是满足您所有 PDF 文档需求的首选工具。

IronPdf 还拥有广泛的兼容性。 它专为 .NET 生态系统而建,支持 .NET Framework、.NET Standard 和 .NET Core 3.1 至 8,并不断更新以保持最前沿。

准备好使用 IronPDF了吗? 您可以开始我们的30天免费试用并探索IronPDF功能。 它还可以完全免费用于开发目的,因此您可以真正领略到它的魅力。 如果您喜欢看到的内容,IronPDF的起价只需$749即可全面访问IronPDF工具。 要节省更多,请查看Iron Suite 套餐,以两种工具的价格提供 9 种工具。 快乐编码!

IronPDF vs ChatGPT - 从PDF文档中提取文本:图3

Chipego
软件工程师
Chipego 拥有出色的倾听技巧,这帮助他理解客户问题并提供智能解决方案。他在 2023 年加入 Iron Software 团队,此前他获得了信息技术学士学位。IronPDF 和 IronOCR 是 Chipego 主要专注的两个产品,但他对所有产品的了解每天都在增长,因为他不断找到支持客户的新方法。他喜欢 Iron Software 的合作氛围,公司各地的团队成员贡献他们丰富的经验,以提供有效的创新解决方案。当 Chipego 离开办公桌时,你经常可以发现他在看书或踢足球。
< 前一页
如何下载网页为PDF(初学者教程)
下一步 >
如何编辑PDF中的文本(初学者教程)