跳至页脚内容
PDF 工具

IronPDF 与 ChatGPT - 从 PDF 文档中提取文本

什么是ChatGPT?

ChatGPT是一个基于大型语言模型的聊天机器人,由OpenAI于2022年发布。它的特点是可以使用户创建和塑造对话,以实现所需的结构、风格、细节水平和所用语言。 每个讨论点都会考虑使用OpenAI API密钥的上下文,包括之前的提示和响应,即“提示工程”。

ChatGPT的基础由属于OpenAI独家生成预训练变换器系列的变换器模型组成。 随后,这些模型通过结合监督学习和强化学习方法被优化用于对话应用。 最初作为免费研究预览发布,由于受欢迎,现在OpenAI以免费增量收费的方式提供ChatGPT AI语言模型。 更高级的基于GPT-4的版本和优先访问更新功能提供给付费客户,使用品牌名称‘ChatGPT Plus’,而用户可以使用GPT-3.5访问其免费的层。

ChatGPT可以读取PDF文件吗?

嗯,是的,也不是。对于付费版本,要求ChatGPT从PDF文档中提取文本就像将文件上传到聊天框,并要求其提取或总结PDF内容一样简单。

然而,它并非没有缺点。 ChatGPT将会以纯文本的形式给你信息,这意味着要使用那些信息手动创建一个新的PDF文档。 可以要求ChatGPT从提取的文本中创建一个新的PDF文件,但它易于遇到格式问题和下载链接故障。 此外,使用ChatGPT进行的自定义是有限的,经常在请求为你的文档添加页眉和页脚时出现问题,例如。

在撰写本文时,ChatGPT的免费层不支持文件附件,这意味着无法要求它读取PDF。

什么是 IronPDF? IronPDF被开发出来,使在.NET框架中创建、浏览和编辑PDF文件变得简单。 它包括一个强大的API来制作、编辑和修改PDF文件,并且作为一个强大的PDF转换器。 Xamarin、Blazor、Unity、HoloLens应用程序、Windows窗体、HTML、ASPX、Razor、.NET Core、ASP和WPF只是与IronPDF兼容的一些扩展。 IronPDF利用Chrome引擎将HTML转换为PDF。 它支持使用Microsoft.NET和.NET Core的传统Windows程序和在线ASP.NET应用程序。 它允许你用各种功能自定义你的PDF,支持HTML5、JavaScript、CSS和图像。 通过使用IronPDF库,开发人员可以不使用Acrobat Reader读取和编辑PDF文件。 此外,他们可以添加文本和图形、书签、水印、页眉和页脚,以及拆分和转移文本属性、合并页面,并从新的或现有的PDF文档中提取图像。 此外,可以使用CSS和CSS媒体文件制作PDF文档。 IronPDF允许你生成、上传和编辑新的办公文件,如Microsoft Word和旧的PDF表单。 ## 使用IronPDF从PDF中提取文本 IronPDF允许你从PDF中提取文本并将其转换为多种格式。 它能处理单个或多个PDF文档,还允许你从整个文档或选定页面中提取文本——让你完全掌控你的PDF内容。 以下是如何开始: ### 在Visual Studio中创建你的项目 首先,打开Visual Studio,转到文件 -> 新建项目 -> 控制台应用程序。 输入你的项目名称,选择你想保存的位置,然后点击下一步按钮。 选择最新的.NET框架,然后创建。 一旦你的项目启动并运行,就该添加我们的库了。 ### 安装IronPDF库 IronPDF易于使用,但安装起来甚至更简单。 您可以这样做的方式有几种: #### 方法1:NuGet包管理器控制台 在Visual Studio中,在解决方案资源管理器中右击引用,然后点击管理NuGet包。 点击浏览,搜索 ‘IronPDF’,并安装最新版本。 如果您看到这样,它就运行了: ![IronPDF安装确认](/static-assets/pdf/blog/chatgpt-read-pdf-tutorial/chatgpt-read-pdf-tutorial-1.png) 你也可以转到工具 -> NuGet包管理器 -> 包管理器控制台,在包管理器选项卡中输入以下行: ```shell :ProductInstall ``` 最后,你可以直接从[NuGet的官方网站获取IronPDF的下载说明](https://www.nuget.org/packages/IronPdf/)。 在页面右侧的菜单中选择下载包选项,双击下载自动安装,并重新加载解决方案以在项目中使用。 不起作用? 你可以在我们的[高级NuGet安装方法](https://ironsoftware.com/csharp/excel/docs/#installation)中找到特定平台的帮助。 #### 方法2:使用DLL文件 您还可以直接从我们这里获取IronPDF DLL文件并手动将其添加到Visual Studio。 有关Windows、MacOS和Linux DLL包的完整说明和链接,请查看我们的专用[IronPDF安装指南](https://ironsoftware.com/csharp/ocr/#installation)。 ### 添加IronPDF命名空间 请务必用IronPDF命名空间开始你的代码,如下所示: ```csharp using IronPdf; ``` ### 从整个PDF文档中提取文本 从PDF文档中提取文本如同两行代码一样简单。 在此代码示例中,我们将PDF内容转换为一个基于文本的格式: ```csharp // Load the PDF document from a file into a PdfDocument object var pdfDocument = IronPdf.PdfDocument.FromFile("Demo.pdf"); // Extract all text from the entire PDF and store it in a string string AllText = pdfDocument.ExtractAllText(); ``` 让我们来看看 - 函数`FromFile()`从你的计算机加载PDF文件并将其转换为PdfDocument对象。 从那里,PdfDocument类的`ExtractAllText()`功能检索整个PDF文件的所有文本并将其存储在一个可处理的字符串中。 下面,你可以在控制台中看到PDF和文本输出: ![PDF文本输出](/static-assets/pdf/blog/chatgpt-read-pdf-tutorial/chatgpt-read-pdf-tutorial-2.png) ### 从PDF文档中的单个页面提取文本 ```csharp using IronPdf; // Load the PDF document from a file PdfDocument PDF = PdfDocument.FromFile("result.pdf"); // Loop through each page of the PDF document for (var index = 0; index < PDF.PageCount; index++) { // Page numbers are typically 1-based, so we add 1 to the index int PageNumber = index + 1; // Extract text from the current page string Text = PDF.ExtractTextFromPage(index); } ``` 和以前的代码相似,这里整个PDF文件被加载然后转化为PDF对象。 `PageCount`返回文件中的总页数,`ExtractTextFromPage()`方法提取文本,而`for`循环则处理页面多样性作为参数。 从那里,我们的文本被存储在字符串变量中。 为了逐页从PDF中提取信息,我们利用`for`循环。 有关如何从PDF中提取嵌入文本和图像的更多信息,请查看这一[详细指南关于从PDF中提取文本和图像](https://ironsoftware.com/csharp/ocr/#text-extraction)。 ## IronPDF与ChatGPT - 谁更好? 有许多可用的工具可以让你从PDF中提取内容,包括ChatGPT。 然而,IronPDF是专为定制和开发者控制而建,使其成为行业领先的PDF阅读器。 而PDF阅读只是一个开始 - 通过HTML到PDF转换、PDF格式化工具、内置安全性和合规功能,IronPDF是满足你所有PDF文档需求的首选工具。 IronPDF还具有广泛的兼容性。 为.NET生态系统构建,以支持.NET Framework、.NET Standard和.NET Core 3.1到8,并不断更新以保持尖端技术。 准备好亲自体验IronPDF了吗? 你可以从我们提供的[30天免费试用,探索IronPDF功能](trial-license)开始。 它也完全免费用于开发目的,因此您可以真正了解它的功能。 如果你喜欢你所看到的,IronPDF的起价为[最低$799,即可完全访问IronPDF工具](/licensing/)。 为了更大的节省,请查看[Iron Suite包,提供9个工具价仅为两个的价格](https://ironsoftware.com/csharp/licensing/)。 祝您编码愉快! ![IronPDF与ChatGPT](/static-assets/pdf/blog/chatgpt-read-pdf-tutorial/chatgpt-read-pdf-tutorial-3.png)

Curtis Chau
技术作家

Curtis Chau 拥有卡尔顿大学的计算机科学学士学位,专注于前端开发,精通 Node.js、TypeScript、JavaScript 和 React。他热衷于打造直观且美观的用户界面,喜欢使用现代框架并创建结构良好、视觉吸引力强的手册。

除了开发之外,Curtis 对物联网 (IoT) 有浓厚的兴趣,探索将硬件和软件集成的新方法。在空闲时间,他喜欢玩游戏和构建 Discord 机器人,将他对技术的热爱与创造力相结合。