使用IRONPDF FOR PYTHON

如何在Python中将PDF转换为文本(教程)

发布 2023年六月30日
分享:

1.0 什么是 PDF?

说到文档共享,Adobe 创建的便携式文档格式(Portable Document Format (PDF) 对于保持文本丰富、美观的内容的完整性至关重要。在大多数情况下,访问在线 PDF 文件需要特定的程序。如今,许多重要的数字出版物都需要 PDF 文件。许多企业利用 PDF 文件创建专家文档和发票。IronPDF Python 是功能最强大的 PDF 库之一,可以提取 PDF 文档中的任何文本。

2.0 如何使用 Python 从 PDF 中提取文本?

1.安装最新版本的 python 这里

2.打开任何用于 python 的集成开发环境工具

3.安装 Dot Net Core 运行时

4.安装 IronPDF python 库或从以下网址下载 这里

5.从 PDF 文件中提取文本

2.1 IronPDF for Python 是什么?

在 Python 中集成 IronPDF 库非常简单,因为与其他语言相比,Python 是一种更加动态的语言,开发人员可以快速、轻松地创建图形用户界面。它预装了大量工具,包括 PyQT、wxWidgets、kivy 以及许多其他软件包和库,所有这些都可以用来快速、安全地创建完整的图形用户界面。

IronPDF Python 是一个极其高效的库,尤其适用于网络开发。Django、Flask 和 Piramyd 等 Python 网络开发范例的出现在一定程度上说明了这一点。许多网站和在线服务都使用了这些框架,包括 Reddit、Mozilla 和 Spotify。

2.2 IronPDF 的功能

  • PDF 文件可以从各种来源创建,包括 HTML、HTML5、ASP 和 PHP 网站。除 HTML 文件外,我们还可以将图像文件转换为 PDF。
  • 通过 IronPDF,您可以创建交互式 PDF 文档、填写和发送交互式表单、分割和合并 PDF 文件、从 PDF 文件中提取文本和图像、搜索 PDF 文件中的特定字词、将 PDF 页面光栅化为图像、将 PDF 转换为 HTML 以及打印 PDF 文件。
  • IronPDF 可以打开 PDF 文件,并从 URL 打印。此外,它还能让用户代理在 HTML 登录表单、代理、cookies、HTTP 标头、自定义网络登录凭证、表单变量和用户代理后面登录。
  • 使用 IronPDF 可以从文档中提取图片。
  • 使用 IronPDF,我们可以在文档中添加页眉、页脚、文本、图片、书签、水印等。
  • 使用 IronPDF,我们可以在新文档或现有文档中合并或分离页面。
  • 无需使用 Acrobat 浏览器,即可将文档转换为 PDF 对象。
  • 可以使用 CSS 文件制作 PDF 文档。

  • 使用媒体类型的 CSS 文件可以创建文档。

2.3 导入 IronPDF 库

在使用 IronPDF 的源文件开头包含以下导入语句,以便导入 IronPDF:

from ironpdf import *
PYTHON

2.4 设置许可证密钥 (如果需要)

虽然 IronPDF for Python 可以免费使用,但它会为免费用户的 PDF 文件加上平铺背景的水印。要想使用 IronPDF 创建无水印的 PDF 文件,您必须为该库提供合法的许可证密钥。以下代码片段展示了如何使用许可证密钥设置库:

License.LicenseKey = "IRONPDF-LICENCE-KEY-ABCDEFGH"
PYTHON

在创建 PDF 文件或更改其内容之前,请确保已配置许可证密钥。应在任何其他代码行之前调用 LicenseKey 方法。如需免费试用许可证密钥,请与我们联系,或从我们的许可证页面购买许可证密钥。

2.5 设置日志文件

一个名为 "Default "的文本文件可以将 Custom.log 生成的日志信息存储在 Python 脚本的目录中。下面的代码片段可用于设置 LogFilePath 属性并自定义日志文件名和位置:

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

3.0 使用 IronPDF 提取 PDF 文本

IronPDF python 库能将 PDF 页面转换为 PDF 对象,并能从 PDF 文件(包括扫描的 PDF 文件)中提取文本。下面的示例展示了如何使用 IronPDF 读取现有的 PDF 文件。

第一种方法涉及提取 PDF 中的所有可用文本;下面提供了代码示例。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON

如上代码所示,"Fromfile "方法是一个 PDF 阅读器对象,可帮助我们加载现有的 PDF 文件并将其转换为 PDF 文档对象。使用该对象,我们可以读取 PDF 页面上的文本和图像。该对象提供了一个名为 "ExtractAllText "的方法,可从整个 PDF 文件中提取每一段文本,并将文本保存为一个可处理的字符串。我们使用打印函数来显示文本。

如何用 Python 将 PDF 转换为文本(教程):图 1 - 显示文本

我们可以使用第二种方法逐页提取 PDF 文件中的文本,代码示例如下。代码示例如下。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)
PYTHON

如上代码所示,"Fromfile "方法用于从现有文件加载 PDF 文件并将其转换为 PDF 文件对象。PDF 页面对象上有一个名为 ExtractTextFromPage 的方法,用于检索 PDF 文件页面中的所有文本。我们必须提供页码作为参数,才能从该特定页面提取文本。提取文本后,我们将其转入一个变量,将其保存为可处理的字符串。

查看 更多例子 从 PDF 中提取文本。

4.0 结论

相比之下,IronPDF 库提供了强大的安全措施来降低潜在风险。它不是为任何一种浏览器量身定做的,可与所有常用浏览器配合使用。IronPDF 允许程序员只需几行代码就能轻松生成和读取 PDF 文件。IronPDF 库提供一系列许可选项,包括免费的开发人员许可和可购买的额外开发许可,以满足不同开发人员的需求。

IronPDF 包括永久许可证、30 天退款保证、一年软件支持和升级选项。首次购买后无需支付额外费用。这些许可证可用于开发、暂存和生产环境。了解更多 产品许可.

*下载 软件产品。

< 前一页
如何在 Python 中查看 PDF 文件

准备开始了吗? 版本: 2024.9 刚刚发布

免费 pip 安装 查看许可证 >