跳至页脚内容
使用 IRONPDF FOR PYTHON

如何在 Python 中将 PDF 转换为文本(教程)

本文将演示如何使用IronPDF for Python,这是一款功能强大的PDF库,从PDF文档中提取任何可用文本。

2.0 如何使用Python从PDF中提取文本?

  1. 从Python下载页面安装Python的最新版本
    1. 打开任何 Python IDE 工具
  2. 安装.NET Core 运行时
  3. 安装 IronPDF for Python 库或从 PyPI 下载页面下载
  4. 从 PDF 中提取文本

2.1 什么是IronPDF for Python?

将IronPDF库集成到Python中非常简单,因为与其他语言相比,Python是一种更加动态的语言,使得开发者可以快速轻松地创建图形用户界面。 它拥有大量预装工具,包括PyQT、wxWidgets、kivy以及更多的包和库,可以快速、安全地创建完整的GUI。

IronPDF for Python 是一个非常高效的库,尤其适用于Web开发。 这部分归功于许多Python Web开发范式的可用性,例如Django、Flask和Pyramid。 这些框架被无数网站和在线服务使用,包括Reddit、Mozilla和Spotify。

2.2 IronPDF的功能

  • PDF 文件可以从多种来源创建,包括 HTML、HTML5、ASP 和 PHP 网站。 除了 HTML 文件,还可以将图像文件转换为 PDF
  • IronPDF 允许您创建交互式 PDF 文档,填写和发送交互式表单拆分合并 PDF 文件,从 PDF 文件中提取文本和图像,在 PDF 文件中搜索特定单词,将 PDF 页面栅格化为图像,将 PDF 转换为 HTML,以及打印 PDF 文件
  • IronPDF 可以打开PDF文件并从URL打印。 此外,它允许用户代理在HTML登录表单、代理、cookies、HTTP头、自定义网络登录凭据、表单变量和用户代理后登录。
      • 可以使用 IronPDF 从文档中提取图像。
  • 使用 IronPDF,您可以轻松地添加页眉和页脚、文本和图片、书签水印,以及更多内容到文档中。
  • 可以使用新文档或现有文档合并和分隔页面。
  • 无需使用Acrobat查看器即可将文档转换为PDF对象。
  • 可以使用CSS文件创建PDF文档。
  • 可以使用媒体类型的CSS文件创建文档。

2.3 导入IronPDF库

在要使用IronPDF的源文件开头包含以下导入语句以导入IronPDF:

from ironpdf import *
from ironpdf import *
PYTHON

2.4 设置许可证密钥(如有需要)

尽管IronPDF for Python可以免费使用,但对于免费用户会在PDF文件中添加覆盖水印。 您必须提供合法的许可证密钥,以便使用IronPDF创建没有水印的PDF。 如何设置该库的许可证密钥在以下代码片段中显示。

# Set the license key for IronPDF
License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"
# Set the license key for IronPDF
License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"
PYTHON

在创建PDF文件或更改其内容之前,请确保已配置许可证密钥。 LicenseKey方法应在任何其他代码行之前调用。 21. 要获取免费试用许可证密钥,请访问许可证页面

2.5 设置日志文件

一个名为"Default"的文本文件可以在Python脚本的目录中存储由Custom.log生成的日志消息。 下面的代码片段可以用于设置LogFilePath属性并自定义日志文件的名称和位置:

# Enable debugging and set the log file path and mode
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
# Enable debugging and set the log file path and mode
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

3.0 用IronPDF提取PDF文本

IronPDF for Python库可以将PDF页面转换为PDF对象,并支持从PDF文件中提取文本,包括扫描的PDF文件。 这是一个示例,展示了如何使用IronPDF读取现有的PDF。

第一种方法涉及提取PDF中所有可用的文本; 下面提供了代码示例。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract all the text from the entire PDF document
all_text = pdf.ExtractAllText()

# Display the extracted text
print(all_text)
from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract all the text from the entire PDF document
all_text = pdf.ExtractAllText()

# Display the extracted text
print(all_text)
PYTHON

如上代码所示,FromFile方法是一个PDF阅读器对象,它加载现有的PDF文件并将其转换为PDF文档对象。 此对象可以用于读取PDF页面上可用的文本和图片。 该对象提供一种名为ExtractAllText的方法,可以从整个PDF文件中提取每一段文本,将文本保存在一个可以处理的字符串中。 然后使用print函数显示文本。

如何在Python中将PDF转换为文本(教程),图1:展示文本 展示文本

第二种方法的代码示例可用于逐页提取PDF文件中的文本。如下所示。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from a specific page in the document
page_text = pdf.ExtractTextFromPage(1)

# Display the extracted text from the specified page
print(page_text)
from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from a specific page in the document
page_text = pdf.ExtractTextFromPage(1)

# Display the extracted text from the specified page
print(page_text)
PYTHON

使用FromFile方法从现有文件加载PDF文件并将其转换为PDF文件对象,如上代码所示。 在PDF页面对象上有一个名为ExtractTextFromPage的方法,用于检索PDF文件中页面上的所有文本。必须提供页码作为参数以从该特定页面提取文本。 然后,在提取文本后,可以使用page_text来保存可以处理的信息。

更多从PDF中提取文本的示例可以查看这里

4.0 结论

相比之下,IronPDF库提供了强大的安全措施来减小潜在风险。 它不针对任何浏览器,并与所有常用的浏览器兼容。 IronPDF允许程序员仅需几行代码即可轻松产生和读取PDF文件。 IronPDF库提供一系列许可证选项,包括免费开发者许可证和可购买的额外开发许可证,以满足不同开发者的需求。

IronPDF包括一个永久许可证,30天的退款保证,一年的软件支持和升级选项。 初次购买后没有额外费用。 这些许可证可以用于开发、测试和生产环境。 了解更多关于产品许可的信息

下载软件产品。

常见问题解答

如何在Python中将PDF转换为文本?

您可以使用IronPDF的PdfDocument.FromFile方法加载您的PDF,然后使用ExtractAllTextExtractTextFromPage方法提取所需的文本。

在Python中使用PDF库需要什么设置?

要使用IronPDF,您需要安装Python和一个IDE,以及.NET Core运行时。IronPDF可以通过PyPI下载页面进行安装。

我可以使用Python从PDF的特定页面提取文本吗?

可以,使用IronPDF,您可以使用ExtractTextFromPage方法通过提供页面编号作为参数从特定页面提取文本。

在Python中是否有免费的PDF库使用选项?

IronPDF for Python提供了一个免费版本,但会在PDF上添加水印。要移除水印并解锁所有功能,您需要购买许可证密钥。

如何将PDF库与Django或Flask等网络框架集成?

IronPDF可无缝集成到Django和Flask等网络框架中,允许您在网络应用项目中生成和操作PDF。

在选择Python PDF库时应考虑哪些特性?

一个全面的PDF库如IronPDF应该支持从HTML和图像创建PDF、提取文本、填写表单、合并PDF和添加书签及水印等功能。

如何在Python中设置PDF库的许可证密钥?

对于IronPDF,在执行任何其他代码之前使用License.LicenseKey方法设置许可证密钥以注册您的许可证并移除水印。

Python PDF库支持从网页创建PDF吗?

IronPDF可以从HTML、HTML5以及使用ASP或PHP构建的网页创建PDF,使其成为用于基于网络的PDF生成的多功能工具。

如何在Python的PDF库中启用调试?

通过将Logger.EnableDebugging设置为true并使用Logger.LogFilePath定义日志文件路径来启用IronPDF中的调试。

Python PDF库的安全特性是什么?

IronPDF确保安全性和跨浏览器兼容性,为开发人员提供安全的Python PDF操作解决方案。

Curtis Chau
技术作家

Curtis Chau 拥有卡尔顿大学的计算机科学学士学位,专注于前端开发,精通 Node.js、TypeScript、JavaScript 和 React。他热衷于打造直观且美观的用户界面,喜欢使用现代框架并创建结构良好、视觉吸引力强的手册。

除了开发之外,Curtis 对物联网 (IoT) 有浓厚的兴趣,探索将硬件和软件集成的新方法。在空闲时间,他喜欢玩游戏和构建 Discord 机器人,将他对技术的热爱与创造力相结合。