from ironpdf import * # Instantiate Renderer renderer = ChromePdfRenderer() # Create a PDF from a HTML string using Python pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>") # Export to a file or Stream pdf.SaveAs("output.pdf") # Advanced Example with HTML Assets # Load external html assets: Images, CSS and JavaScript. # An optional BasePath 'C:\site\assets\' is set as the file location to load assets from myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", r"C:\site\assets") myAdvancedPdf.SaveAs("html-with-assets.pdf")

使用IRONPDF FOR PYTHON

如何在Python中从PDF提取特定文本

查克尼特·宾

2023年八月2日

更新 2024年九月21日

本文将演示如何借助 IronPDF for Python 库从 PDF 文档中提取文本元素。

IronPDF

Python 是一种编程语言，可以让开发人员简单快捷地创建图形用户界面。与其他语言相比，Python 对程序员来说也更具活力。因此，将IronPDF库添加到Python是一个简单的过程。通过使用包括 PyQt、wxWidgets、Kivy 以及许多其他软件包和 Python 库在内的大量预装工具，可以快速、安全地构建一个完整的图形用户界面。 IronPDF for Python 融入了 Python，还允许集成其他框架（如 .NET Core）的功能。

IronPDF 让网络开发更轻松。主要原因是 Python 网络开发范例（如 Django、Flask 和 Pyramid）的广泛采用。 Reddit、Mozilla 和 Spotify 只是使用这些框架的网站和在线服务中的一小部分。

IronPDF 功能

使用IronPDF，可以从多种来源创建PDF文件，包括HTML、HTML5、ASPX和Razor/MVC视图。它提供了将HTML页面和图像转换为PDF文件的功能。
创建交互式PDF，填写和提交交互式表单，拆分和合并 PDF文件，提取文字和图像，在PDF文件中搜索文本，将PDF光栅化为图像，更改字体大小，使用ChatGPT进行自然语言处理，以及将PDF页面属性转换只是IronPDF工具包可以帮助完成的一些活动。
IronPDF提供HTML登录表单验证，支持用户代理、代理服务器、Cookie、HTTP头和表单变量。
IronPDF 使用用户名和密码为用户提供访问受保护文档的权限。
只需几行代码，IronPDF 就能从字符串、流或 URL 等各种来源打印 PDF 文件。

设置 Python

环境配置

确保在您的计算机上设置了 Python。要下载并安装与您的操作系统兼容的最新版本的 Python，请访问官方 Python 网站。安装 Python 后，创建一个虚拟环境，以满足项目的不同需求。使用venv模块创建和管理虚拟环境，以为您的转换项目提供一个整洁、独立的工作空间。

PyCharm 的新举措

在本演示中，推荐使用 PyCharm 作为开发 Python 代码的集成开发环境。

启动 PyCharm IDE 后，选择 "新建项目"。

如何在Python中从PDF提取特定文本，图1：PyCharm

PyCharm

选择 "新建项目 "时会打开一个新窗口，允许您设置项目的位置和环境。这可以从下图中看出。

如何从 PDF 中提取特定文本，Python，第 2 图：新项目

新项目

选择项目位置和环境路径后，点击创建按钮开始一个新项目。然后，程序可以在新窗口中创建，并随之打开。本课使用 Python 3.9。

如何在Python中提取PDF中特定文本，图3：创建Python项目

创建Python项目

IronPDF库要求

IronPDF for Python 库在很大程度上使用了 .NET 6.0。因此，必须在计算机上安装 .NET 6.0 运行时，才能使用 IronPDF for Python。 Linux 和 Mac 用户可能需要先安装 .NET 才能使用此 Python 模块。访问此微软的下载页面以获取所需的运行时环境。

IronPDF 库设置

要生成、修改和打开“.pdf”扩展名的文件，必须安装“ironpdf”包。打开终端窗口并输入以下命令在 PyCharm 中安装该包：

:PackageInstall

:PackageInstall

SHELL

下图显示了ironpdf包的安装。

如何在Python中从PDF中提取特定文本，图4：安装IronPDF

安装 IronPDF

从 PDF 文件中提取特定数据

在 IronPDF 库的帮助下，可以从 PDF 文件中提取文本。 IronPDF 提供多种文本提取方法。第一种方法需要以单个字符串的形式检索整个页面的内容。第二种策略是从第一页开始，逐页翻译内容。可以使用 IronPDF 库调查现有的 PDF 文件。下面的代码片段展示了如何使用 IronPDF 检测实时 PDF 文件。

从 PDF 中提取信息有两种选择：

从 PDF 逐页提取
将整个 PDF 转换为文本
下面是这篇文章的 PDF 样本文件。
输入 PDF

从 PDF 逐页提取

下面提供的示例代码显示了如何使用页码从 PDF 文件中获取数据。

from ironpdf import *

# PDF object
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from PDF document
all_text = pdf.ExtractTextFromPage(0)
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)

py

PYTHON

这段代码展示了如何使用FromFile函数读取PDF文件并构建PDF对象。该对象可用于访问 PDF 的文本和图像。通过将页码作为参数传递给ExtractTextFromPage函数，可以从特定页面检索文本。此方法将返回一个字符串，其中包含所选页面上的所有单词。然后，使用 Python 中的split函数将提取的文本中的所有换行符分割。然后，检查提取文本中的每一行是否包含所需的关键词。如果关键字匹配，则会在命令提示符中显示特定行。否则，它将忽略该行并转到下一行。文本提取的输出将如下所示。

将整个 PDF 转换为文本

下面的代码示例演示了以字符串形式快速、简单地获取所有 PDF 内容的第一种方法。

pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extracting texts from PDF document
all_text = pdf.ExtractAllText()
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)

py

PYTHON

上面的示例代码演示了如何使用FromFile函数从现有文件路径读取PDF并将其转换为PDF文件对象。因此，我们可以使用这个 PDF 阅读器对象来查看 PDF 中的文本和图像。对象的ExtractAllText函数将用于从PDF中提取数据为纯文本，转换为字符串，并使用类似上述的逻辑来查找特定关键字以在终端中显示结果。结果显示如下。

如何使用Python从PDF中提取特定文本，图6：输出

输出

上述代码/输出显示，给定的 PDF 文档包含名称和年龄，但结果只显示了 PDF 文档中可用的名称。

结论

IronPDF 库提供了强大的安全机制，以减少威胁并保证数据的安全。它不局限于任何一种浏览器，并与所有广泛使用的浏览器兼容。只需几行代码，程序员就能使用 IronPDF 快速生成和读取 PDF 文件。 IronPDF 库提供一系列许可选项，包括免费的开发人员许可和可购买的额外开发许可，以满足开发人员的不同需求。

在Lite package中包含永久许可证、30天退款保证、一年的软件维护以及升级选项。这些许可证可用于所有环境。此外，IronPdf 提供免费许可证，但有一些再分发限制。一份试用许可证允许用户在没有水印的情况下评估产品。

请查看可用的 IronPDF 许可证以获取有关商业许可的更多信息。

查克尼特·宾

立即与工程团队聊天

软件工程师

Chaknith 负责 IronXL 和 IronBarcode 的工作。他在 C# 和 .NET 方面拥有深厚的专业知识，帮助改进软件并支持客户。他从用户互动中获得的洞察力，有助于提升产品、文档和整体体验。

< 前一页
如何在Python中编辑PDF文件

下一步 >
如何在Python中压平PDF文件