使用IRONPDF FOR PYTHON

如何在Python中将PDF转换为文本(教程)

更新 2024年九月21日
分享:

本文将演示如何使用 IronPDF for Python(最强大的 PDF 库之一)提取 PDF 文档中的任何可用文本。

2.0 如何使用 Python 从 PDF 中提取文本?

  1. 从 Python 下载页面安装最新版本的 Python

  2. 打开任何 Python IDE 工具

  3. 安装 .NET Core 运行时

  4. 安装 IronPDF for Python 库或从 PyPI 下载页面下载

  5. 从 PDF 中提取文本

2.1 什么是 IronPDF for Python?

在 Python 中集成 IronPDF 库非常简单,因为与其他语言相比,Python 是一种更加动态的语言,开发人员可以快速轻松地创建图形用户界面。 该软件预装了大量工具,包括 PyQT、wxWidgets、kivy 以及许多其他软件包和库,所有这些工具都可用于快速、安全地创建完整的图形用户界面。

IronPDF for Python 是一个非常高效的库,尤其适用于网络开发。 出现 Django、Flask 和 Pyramid 等众多 Python 网络开发范例的部分原因就在于此。 这些框架已被许多网站和在线服务使用,包括 Reddit、Mozilla 和 Spotify。

2.2 IronPDF 的特点

  • PDF 文件可以从各种来源创建翻译的内容包括 HTML、HTML5、ASP 和 PHP 网站。 除 HTML 文件外,还可以将图像文件转换为 PDF.
  • IronPDF 允许您构建交互式 PDF 文档,填写并发送交互式表单, (意见) 分歧CombinePDF文件,提取文本和图像从PDF文件中提取文本,在PDF文件中搜索特定单词,将PDF页面栅格化为图像,转换PDF为HTML,并打印 PDF 文件.
  • IronPdf 可以打开 PDF 文件并从 URL 打印。 此外,它还能让用户代理在 HTML 登录表单、代理、cookie、HTTP 标头、自定义网络登录凭证、表单变量和用户代理后面登录。
  • 可以使用 IronPDF 从文件中提取图片。
  • 有了 IronPDF,您可以非常轻松地添加页眉和页脚译文必须包含文字和图片、书签Watermark此外,还需将.NET、Java、Python 或 Node.js 等术语翻译成文档。
  • 可以使用 IronPDF 将新文档或现有文档的页面进行组合和分离。
  • 在不使用 Acrobat 浏览器的情况下,可将文档转换为 PDF 对象。
  • 可以使用 CSS 文件制作 PDF 文档。
  • 可以使用媒体类型的 CSS 文件创建文档。

2.3 导入 IronPDF 库

在将使用 IronPDF 的源文件开头包含以下导入语句,以便导入 IronPDF:

from ironpdf import *
PYTHON

2.4 设置许可证密钥(如需要)

虽然 IronPDF for Python 可免费使用,但它会为免费用户的 PDF 文件加上平铺背景的水印。 您必须向该库提供合法的许可证密钥,才能使用 IronPdf 创建无水印的 PDF。 以下代码片段显示了如何使用许可证密钥设置库:

License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"
PYTHON

在创建 PDF 文件或更改其内容之前,请确保已配置许可证密钥。 LicenseKey "方法应在其他代码行之前调用。 至获取免费试用许可证密钥请访问许可页面.

2.5 设置日志文件

名为 "Default "的文本文件可以存储 Custom.log 在 Python 脚本目录下生成的日志信息。 下面的代码片段可用于设置 LogFilePath 属性并自定义日志文件名和位置:

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

3.0 使用 IronPDF 提取 PDF 文本

IronPDF for Python 库可以将 PDF 页面转换为 PDF 对象,并能从 PDF 文件(其中包括扫描的 PDF 文件)中提取文本。 下面是一个示例,展示了如何使用 IronPDF 阅读现有 PDF。

第一种方法是提取 PDF 中的所有可用文本; 下面提供了代码示例。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON

如上代码所示,"FromFile "方法是一个 PDF 阅读器对象,它加载现有的 PDF 文件并将其转换为 PDF 文档对象。 该对象可用于阅读 PDF 页面上的文本和图像。 该对象提供了一个名为 "ExtractAllText "的方法,可从整个 PDF 文件中提取每一段文本,并将文本保存为一个可处理的字符串。 然后使用 print 功能显示文本。

如何用 Python 将 PDF 转换为文本(教程),图 1:显示文本

显示文本

第二种方法的代码示例可用于从 PDF 文件中逐页提取文本。如下所示。

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)
PYTHON

如上代码所示,"FromFile "方法用于从现有文件加载 PDF 文件并将其转换为 PDF 文件对象。 PDF 页面对象上一个名为 "ExtractTextFromPage "的方法可检索 PDF 文件中某一页的所有文本。要从特定页面提取文本,必须提供页码作为参数。 然后,在提取文本后,可使用 page_text 来保存可处理的信息。

查看更多示例从 PDF 中提取文本。

4.0 结论

IronPdf 库则提供了强大的安全措施,以降低潜在风险。 译文不针对任何一种浏览器,可在所有常用浏览器上运行。 IronPDF 使程序员只需几行代码就能轻松生成和读取 PDF 文件。 IronPDF 库提供一系列许可选项,包括免费的开发人员许可和可购买的额外开发许可,以满足不同开发人员的需求。

IronPdf 包括永久许可证、30 天退款保证、一年软件支持和升级选项。 在首次购买后没有额外费用。 这些许可证可用于开发、暂存和生产环境。 了解有关产品许可的更多信息.

*下载软件产品。

< 前一页
如何在 Python 中查看 PDF 文件

准备开始了吗? 版本: 2024.11.1 刚刚发布

免费 pip 安装 查看许可证 >