IronPDF 与 ChatGPT - 从 PDF 文档中提取文本
什么是ChatGPT?
ChatGPT是一个基于大型语言模型的聊天机器人,由OpenAI于2022年发布。它的特点是可以使用户创建和塑造对话,以实现所需的结构、风格、细节水平和所用语言。 每个讨论点都会考虑使用OpenAI API密钥的上下文,包括之前的提示和响应,即"提示工程"。
ChatGPT的基础由属于OpenAI独家生成预训练变换器系列的变换器模型组成。 随后,这些模型通过结合监督学习和强化学习方法被优化用于对话应用。 最初作为免费研究预览发布,由于受欢迎,现在OpenAI以免费增量收费的方式提供ChatGPT AI语言模型。 更高级的基于GPT-4的版本和优先访问更新功能提供给付费客户,使用品牌名称'ChatGPT Plus',而用户可以使用GPT-3.5访问其免费的层。
ChatGPT可以读取PDF文件吗?
嗯,是的,也不是。对于付费版本,要求ChatGPT从PDF文档中提取文本就像将文件上传到聊天框,并要求其提取或总结PDF内容一样简单。
然而,它并非没有缺点。 ChatGPT将会以纯文本的形式给你信息,这意味着要使用那些信息手动创建一个新的PDF文档。 可以要求ChatGPT从提取的文本中创建一个新的PDF文件,但它易于遇到格式问题和下载链接故障。 此外,使用ChatGPT进行的自定义是有限的,经常在请求为你的文档添加页眉和页脚时出现问题,例如。
在撰写本文时,ChatGPT的免费层不支持文件附件,这意味着无法要求它读取PDF。
什么是 IronPDF?
IronPDF被开发出来,使在.NET框架中创建、浏览和编辑PDF文件变得简单。 它包括一个强大的API来制作、编辑和修改PDF文件,并且作为一个强大的PDF转换器。 Xamarin、Blazor、Unity、HoloLens应用程序、Windows窗体、HTML、ASPX、Razor、.NET Core、ASP和WPF只是与IronPDF兼容的一些扩展。
IronPDF利用Chrome引擎将HTML转换为PDF。 它支持使用Microsoft.NET和.NET Core的传统Windows程序和在线ASP.NET应用程序。 它允许你用各种功能自定义你的PDF,支持HTML5、JavaScript、CSS和图像。
通过使用IronPDF库,开发人员可以不使用Acrobat Reader读取和编辑PDF文件。 此外,他们可以添加文本和图形、书签、水印、页眉和页脚,以及拆分和转移文本属性、合并页面,并从新的或现有的PDF文档中提取图像。
此外,可以使用CSS和CSS媒体文件制作PDF文档。 IronPDF允许你生成、上传和编辑新的办公文件,如Microsoft Word和旧的PDF表单。
使用IronPDF从PDF中提取文本
IronPDF允许你从PDF中提取文本并将其转换为多种格式。 它能处理单个或多个PDF文档,还允许你从整个文档或选定页面中提取文本——让你完全掌控你的PDF内容。 以下是如何开始:
在Visual Studio中创建您的项目
首先,打开Visual Studio,然后进入文件 -> 新建项目 -> 控制台应用程序。 输入您的项目名称,选择保存位置,然后点击下一步。 选择最新的.NET Framework,并点击创建。 项目启动并运行后,是时候添加我们的库了。
安装IronPDF库
IronPDF易于使用,但安装起来甚至更简单。 您可以这样做的方式有几种:
方法1:NuGet包管理器控制台
在Visual Studio中,在解决方案资源管理器中,右键单击引用,然后点击管理NuGet包。 点击浏览,搜索 'IronPDF',并安装最新版本。 如果您看到这样,它就运行了:

你也可以进入工具 -> NuGet包管理器 -> 包管理器控制台,并在包管理器选项卡中输入以下行:
Install-Package IronPdf
最后,你可以直接从NuGet的官方网站获取IronPDF的下载说明。 从页面右侧的菜单中选择下载包选项,双击您的下载以自动安装,并重新加载解决方案以在项目中开始使用。
不起作用? 你可以在我们的高级NuGet安装方法中找到特定平台的帮助。
方法2:使用DLL文件
您还可以直接从我们这里获取IronPDF DLL文件并手动将其添加到Visual Studio。 有关Windows、MacOS和Linux DLL包的完整说明和链接,请查看我们的专用IronPDF安装指南。
添加IronPDF命名空间
请记得用IronPDF命名空间启动代码,如下所示:
using IronPdf;using IronPdf;从整个PDF文档中提取文本
从PDF文档中提取文本如同两行代码一样简单。 在此代码示例中,我们将PDF内容转换为一个基于文本的格式:
// Load the PDF document from a file into a PdfDocument object
var pdfDocument = IronPdf.PdfDocument.FromFile("Demo.pdf");
// Extract all text from the entire PDF and store it in a string
string AllText = pdfDocument.ExtractAllText();// Load the PDF document from a file into a PdfDocument object
var pdfDocument = IronPdf.PdfDocument.FromFile("Demo.pdf");
// Extract all text from the entire PDF and store it in a string
string AllText = pdfDocument.ExtractAllText();让我们来看看 - 函数FromFile()从你的计算机加载PDF文件并将其转换为PdfDocument对象。 从那里,PdfDocument类的ExtractAllText()功能检索整个PDF文件的所有文本并将其存储在一个可处理的字符串中。
下面,你可以在控制台中看到PDF和文本输出:

从PDF文档中的单个页面提取文本
using IronPdf;
// Load the PDF document from a file
PdfDocument PDF = PdfDocument.FromFile("result.pdf");
// Loop through each page of the PDF document
for (var index = 0; index < PDF.PageCount; index++)
{
// Page numbers are typically 1-based, so we add 1 to the index
int PageNumber = index + 1;
// Extract text from the current page
string Text = PDF.ExtractTextFromPage(index);
}using IronPdf;
// Load the PDF document from a file
PdfDocument PDF = PdfDocument.FromFile("result.pdf");
// Loop through each page of the PDF document
for (var index = 0; index < PDF.PageCount; index++)
{
// Page numbers are typically 1-based, so we add 1 to the index
int PageNumber = index + 1;
// Extract text from the current page
string Text = PDF.ExtractTextFromPage(index);
}和以前的代码相似,这里整个PDF文件被加载然后转化为PDF对象。 PageCount返回文件中的总页数,ExtractTextFromPage()方法提取文本,而for循环则处理页面多样性作为参数。 从那里,我们的文本被存储在字符串变量中。 为了逐页从PDF中提取信息,我们利用for循环。
有关如何从PDF中提取嵌入文本和图像的更多信息,请查看这一详细指南关于从PDF中提取文本和图像。
IronPDF与ChatGPT - 谁更好?
有许多可用的工具可以让你从PDF中提取内容,包括ChatGPT。 然而,IronPDF是专为定制和开发者控制而建,使其成为行业领先的PDF阅读器。 而PDF阅读只是一个开始 - 通过HTML到PDF转换、PDF格式化工具、内置安全性和合规功能,IronPDF是满足你所有PDF文档需求的首选工具。
IronPDF还具有广泛的兼容性。 为.NET生态系统构建,以支持.NET Framework、.NET Standard和.NET Core 3.1到8,并不断更新以保持尖端技术。
准备好亲自体验IronPDF了吗? 你可以从我们提供的30天免费试用,探索IronPDF功能开始。 它也完全免费用于开发目的,因此您可以真正了解它的功能。 如果你喜欢你所看到的,IronPDF的起价为最低$799,即可完全访问IronPDF工具。 如需更多优惠,请查看 Iron Suite 套装,只需购买两套工具即可获得 9 套工具。 祝您编码愉快!







