如何在 Python 中将 PDF 转换为文本(教程)
本文将演示如何使用IronPDF for Python,这是一款功能强大的PDF库,从PDF文档中提取任何可用文本。
如何用 Python 将 PDF 转换为文本
- 安装 Python 库将 PDF 转换为文本。
- 加载现有的 PDF 文档或渲染新的文档
- 利用
ExtractAllText方法从打开的文件中读取文本 - 使用该方法的另一个重载来读取特定页面的文本。
- 将提取的文本打印到控制台或将其保存到文本文件中
2.0 如何使用Python从PDF中提取文本?
- 从Python下载页面安装Python的最新版本
- 打开任何 Python IDE 工具
- 安装.NET Core 运行时
- 安装 IronPDF for Python 库或从 PyPI 下载页面下载
- 从 PDF 中提取文本
2.1 什么是IronPDF for Python?
将IronPDF库集成到Python中非常简单,因为与其他语言相比,Python是一种更加动态的语言,使得开发者可以快速轻松地创建图形用户界面。 它拥有大量预装工具,包括PyQT、wxWidgets、kivy以及更多的包和库,可以快速、安全地创建完整的GUI。
IronPDF for Python 是一个非常高效的库,尤其适用于Web开发。 这部分归功于许多Python Web开发范式的可用性,例如Django、Flask和Pyramid。 这些框架被无数网站和在线服务使用,包括Reddit、Mozilla和Spotify。
2.2 IronPDF的功能
- PDF 文件可以从多种来源创建,包括 HTML、HTML5、ASP 和 PHP 网站。 除了 HTML 文件,还可以将图像文件转换为 PDF。
- IronPDF 允许您创建交互式 PDF 文档,填写和发送交互式表单,拆分和合并 PDF 文件,从 PDF 文件中提取文本和图像,在 PDF 文件中搜索特定单词,将 PDF 页面栅格化为图像,将 PDF 转换为 HTML,以及打印 PDF 文件。
- IronPDF 可以打开PDF文件并从URL打印。 此外,它允许用户代理在HTML登录表单、代理、cookies、HTTP头、自定义网络登录凭据、表单变量和用户代理后登录。
- 可以使用 IronPDF 从文档中提取图像。
- 使用 IronPDF,您可以轻松地添加页眉和页脚、文本和图片、书签和水印,以及更多内容到文档中。
- 可以使用新文档或现有文档合并和分隔页面。
- 无需使用Acrobat查看器即可将文档转换为PDF对象。
- 可以使用CSS文件创建PDF文档。
- 可以使用媒体类型的CSS文件创建文档。
2.3 导入IronPDF库
在要使用IronPDF的源文件开头包含以下导入语句以导入IronPDF:
from ironpdf import *from ironpdf import *2.4 设置许可证密钥(如有需要)
尽管IronPDF for Python可以免费使用,但对于免费用户会在PDF文件中添加覆盖水印。 您必须提供合法的许可证密钥,以便使用IronPDF创建没有水印的PDF。 如何设置该库的许可证密钥在以下代码片段中显示。
# Set the license key for IronPDF
License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"# Set the license key for IronPDF
License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"在创建PDF文件或更改其内容之前,请确保已配置许可证密钥。 LicenseKey方法应在任何其他代码行之前调用。 21. 要获取免费试用许可证密钥,请访问许可证页面。
2.5 设置日志文件
一个名为"Default"的文本文件可以在Python脚本的目录中存储由Custom.log生成的日志消息。 下面的代码片段可以用于设置LogFilePath属性并自定义日志文件的名称和位置:
# Enable debugging and set the log file path and mode
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All# Enable debugging and set the log file path and mode
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All3.0 用IronPDF提取PDF文本
IronPDF for Python库可以将PDF页面转换为PDF对象,并支持从PDF文件中提取文本,包括扫描的PDF文件。 这是一个示例,展示了如何使用IronPDF读取现有的PDF。
第一种方法涉及提取PDF中所有可用的文本; 下面提供了代码示例。
from ironpdf import *
# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")
# Extract all the text from the entire PDF document
all_text = pdf.ExtractAllText()
# Display the extracted text
print(all_text)from ironpdf import *
# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")
# Extract all the text from the entire PDF document
all_text = pdf.ExtractAllText()
# Display the extracted text
print(all_text)如上代码所示,FromFile方法是一个PDF阅读器对象,它加载现有的PDF文件并将其转换为PDF文档对象。 此对象可以用于读取PDF页面上可用的文本和图片。 该对象提供一种名为ExtractAllText的方法,可以从整个PDF文件中提取每一段文本,将文本保存在一个可以处理的字符串中。 然后使用print函数显示文本。
展示文本
第二种方法的代码示例可用于逐页提取PDF文件中的文本。如下所示。
from ironpdf import *
# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")
# Extract text from a specific page in the document
page_text = pdf.ExtractTextFromPage(1)
# Display the extracted text from the specified page
print(page_text)from ironpdf import *
# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")
# Extract text from a specific page in the document
page_text = pdf.ExtractTextFromPage(1)
# Display the extracted text from the specified page
print(page_text)使用FromFile方法从现有文件加载PDF文件并将其转换为PDF文件对象,如上代码所示。 在PDF页面对象上有一个名为ExtractTextFromPage的方法,用于检索PDF文件中页面上的所有文本。必须提供页码作为参数以从该特定页面提取文本。 然后,在提取文本后,可以使用page_text来保存可以处理的信息。
更多从PDF中提取文本的示例可以查看这里。
4.0 结论
相比之下,IronPDF库提供了强大的安全措施来减小潜在风险。 它不针对任何浏览器,并与所有常用的浏览器兼容。 IronPDF允许程序员仅需几行代码即可轻松产生和读取PDF文件。 IronPDF库提供一系列许可证选项,包括免费开发者许可证和可购买的额外开发许可证,以满足不同开发者的需求。
IronPDF包括一个永久许可证,30天的退款保证,一年的软件支持和升级选项。 初次购买后没有额外费用。 这些许可证可以用于开发、测试和生产环境。 了解更多关于产品许可的信息。
下载软件产品。
常见问题解答
如何在Python中将PDF转换为文本?
您可以使用IronPDF的PdfDocument.FromFile方法加载您的PDF,然后使用ExtractAllText或ExtractTextFromPage方法提取所需的文本。
在Python中使用PDF库需要什么设置?
要使用IronPDF,您需要安装Python和一个IDE,以及.NET Core运行时。IronPDF可以通过PyPI下载页面进行安装。
我可以使用Python从PDF的特定页面提取文本吗?
可以,使用IronPDF,您可以使用ExtractTextFromPage方法通过提供页面编号作为参数从特定页面提取文本。
在Python中是否有免费的PDF库使用选项?
IronPDF for Python提供了一个免费版本,但会在PDF上添加水印。要移除水印并解锁所有功能,您需要购买许可证密钥。
如何将PDF库与Django或Flask等网络框架集成?
IronPDF可无缝集成到Django和Flask等网络框架中,允许您在网络应用项目中生成和操作PDF。
在选择Python PDF库时应考虑哪些特性?
一个全面的PDF库如IronPDF应该支持从HTML和图像创建PDF、提取文本、填写表单、合并PDF和添加书签及水印等功能。
如何在Python中设置PDF库的许可证密钥?
对于IronPDF,在执行任何其他代码之前使用License.LicenseKey方法设置许可证密钥以注册您的许可证并移除水印。
Python PDF库支持从网页创建PDF吗?
IronPDF可以从HTML、HTML5以及使用ASP或PHP构建的网页创建PDF,使其成为用于基于网络的PDF生成的多功能工具。
如何在Python的PDF库中启用调试?
通过将Logger.EnableDebugging设置为true并使用Logger.LogFilePath定义日志文件路径来启用IronPDF中的调试。
Python PDF库的安全特性是什么?
IronPDF确保安全性和跨浏览器兼容性,为开发人员提供安全的Python PDF操作解决方案。









