使用IRONPDF FOR PYTHON

如何在Python中从PDF提取数据

更新 2024年九月28日

一个名为IronPDF的强大Python包可用于提取数据、图像、单选按钮、列表框控件。(而不是复选框部件)，以及来自 PDF 文件的其他信息。本文将演示如何使用这个库将互动表单与数据分组并生成新的PDF文件和PDF表单。

如何从PDF中提取Python数据

获取PDF文件以提取文本进行数据处理。
在 PyCharm 中创建一个项目。
为您的项目配置必要的Python库。
从PDF文档的特定页面中提取信息。
打印从 PDF 文档中提取的文本内容。

2.IronPDF

"(《世界人权宣言》)IronPDF for Python该库通过促进高效的 PDF 数据处理和提供多种 PDF 操作，无缝地增强了 Python 编程。其集成能力扩展到各种框架，增强了开发图形用户界面的能力。

Python是一种多功能的编程语言，可以快速轻松地创建用户友好的图形界面，因此成为许多开发人员的首选。其动态特性使其区别于其他编程语言。将IronPDF库引入到Python中是一个简单的过程，使得处理和处理PDF数据变得高效。

为了快速、安全地开发功能齐全的图形用户界面，开发人员可以利用包括PyQt、wxWidgets、Kivy等在内的广泛预装工具和流行的Python库。

此外，IronPDF 库无缝集成了其他框架的各种功能，特别是在 .NET Core 的上下文中，它扩展了对 Python 和其他几种编程语言的支持。有关 Python IronPDF 的更多信息，请访问官方网站.

IronPDF for Python 库简化了创建和管理网站的过程，尤其是在使用像 Django、Flask 和 Pyramid 这样的框架进行基于 Python 的网页开发时。这是一个有价值的工具，受欢迎的网站和在线服务，如Reddit、Mozilla和Spotify，依赖它来增强其功能和特性。

2.1 IronPDF 功能

HTML、HTML5、ASPX 和 Razor/MVC 视图是可以通过使用 IronPDF 转换为 PDF 格式的几种格式之一。此外，IronPDF 提供了便捷的功能来生成 PDF 文件来自图像和HTML页面。

IronPDF 工具包可以协助完成各种任务，包括创建交互式 PDF、促进交互式表单填写和提交高效的合并和划分PDF文件，精准文本和图像提取在PDF文件中进行全面的文本搜索，转化PDF转换为图像以及自定义字体大小、边框和背景颜色的灵活性。 IronPDF还可以实现轻松的PDF文件转换。

IronPDF 通过扩展对用户代理、代理服务器、cookies、HTTP 标头和表单变量的支持，更进一步，从而增强功能。HTML 登录表单验证. 它使用用户名和密码以保护用户访问保护PDF中的文本。

APDF文件打印可以通过许多来源生成，例如字符串、流或URL，只需几行代码即可实现。

IronPDF可以生成扁平化PDF文档通过转换交互元素，确保文档的内容保持不变且可查看，但不可编辑。

3.配置和设置

3.1 安装 Python 并创建虚拟环境

确保您已在个人计算机上安装Python编程语言。这很重要，因为Python库经常被用于执行各种任务。要实现这一点，请访问Python 官方网站并下载与您的操作系统兼容的最新版本。这确保了您拥有正确的工具来有效地使用Python库。

安装 Python 后，建立一个虚拟环境以隔离项目所需的库，因为某些项目可能需要 Python 的一些必要库。 venv 模块能够帮助您构建和维护虚拟环境，尤其是在处理多个 Python 库时，可以使您的转换项目拥有一个整洁、独立的工作空间。

3.2 在 PyCharm 中设置新项目

您可以灵活地使用任何文本编辑器或编码环境编写Python代码，例如Visual Studio 代码, PyCharm，或者崇高文本. 然而，本文使用 PyCharm，一款用于编写 Python 代码的集成开发环境（IDE），来创建一个 Python 项目。

一旦启动 PyCharm IDE，选择 New Project。

如何在Python中从PDF中提取数据，图1：PyCharm IDE创建新的Python项目

使用PyCharm IDE创建新的Python项目

选择新建项目后，您将看到一个新窗口，允许您指定项目的环境和位置。下图可能会提供更清晰的了解。

在设置项目位置和环境详细信息并点击创建后，您将进入PyCharm的界面。在这里，您将找到项目的结构和代码文件。这是您管理和开发项目的工作区。本指南使用的版本是 Python 3.9。

如何在 Python 中从 PDF 提取数据，图 2：主 Python 文件

主Python文件

3.3 IronPDF 的库要求

Python 库 IronPDF 通常与 .NET 6.0 接口。因此，为了有效地使用 IronPDF for Python，您的计算机必须安装 .NET 6.0 运行时。

对于 Linux 和 Mac 用户，在使用此 Python 模块之前可能需要安装 .NET。有关获取所需运行时环境的指导，请访问此链接微软下载页面.

3.4 安装 IronPDF 库

您必须安装 "ironpdf" 软件包以处理 PDF 文件，包括创建、编辑和打开它们。要在 PyCharm 中执行此操作，请打开终端窗口并输入以下命令：

pip install ironpdf

请参阅下面的截图以了解ironpdf包的安装。

如何在Python中从PDF中提取数据，图3：IronPDF安装

IronPDF 安装

4. 从PDF文件中提取文本

IronPDF for Python 库能够高效地将 PDF 页面转换为 PDF 页面对象，从而简化从 PDF 文件中提取文本内容的过程。

4.1 从 PDF 文件提取所有文本数据

在此示例中，展示了使用IronPDF从现有PDF提取文本的过程。在此情况下，以下 PDF 文档用于此演示。

第一种方法侧重于从 PDF 文件中提取所有文本。编写以下代码以轻松对输入 PDF 执行完整的数据提取：

from ironpdf import *

pdf = PdfDocument.FromFile("sampleData.pdf")
all_text = pdf.ExtractAllText()

from ironpdf import *

pdf = PdfDocument.FromFile("sampleData.pdf")
all_text = pdf.ExtractAllText()

PYTHON

如上面代码所示，FromFile 方法起着关键作用。它从现有位置加载 PDF 文件，将其转换为 PdfDocument 对象。使用此对象，可以访问PDF页面内的文本内容和图像。为了从给定的PDF文件中提取所有文本，使用了一个称为ExtractAllText的方法。提取的文本随后存储在一个字符串中，准备进行进一步处理。

4.2 页面逐页文本提取

以下是第二种方法的代码，它显式地从PDF文件的每一页中提取文本。

from ironpdf import *

pdf = PdfDocument.FromFile("sampleData.pdf")
for xpage in range(pdf.PageCount):
    print(pdf.ExtractTextFromPage(xpage))

from ironpdf import *

pdf = PdfDocument.FromFile("sampleData.pdf")
for xpage in range(pdf.PageCount):
    print(pdf.ExtractTextFromPage(xpage))

PYTHON

此示例代码最初加载整个 PDF 文件并将其转换为名为 pdf 的 PdfDocument 对象。为了确保依次处理 PDF 文件的每个特定页面，可以通过在 pdf 对象中使用其页码或页面索引来访问每个页面。首先，使用其 pdf 对象的 PageCount 方法确定输入 PDF 中存在的总页数。

在此页数下，for 循环遍历每一页，调用 ExtractTextFromPage 函数从 PDF 文档的每一页提取文本。提取的文本可以存储在字符串变量中或显示在用户屏幕上。因此，此方法可以有序地从每个单独的PDF页面中提取文本。这些方法来自IronPDF，这是一个为PDF任务设计的Python库，突显其使从PDF文件中提取文本变得简单而全面的能力。这种可访问性在不同领域有许多实际应用，并提高了PDF的实用性。

结论

"(《世界人权宣言》)IronPDF库集成了强大的安全措施，以减轻潜在风险并确保数据安全。它可以在所有广泛使用的浏览器上有效运行，没有任何特定限制。 IronPDF使开发人员能够通过极少的Python代码行高效生成和解析PDF文档。为了满足开发人员的各种需求，IronPDF库提供了一系列许可选项，包括免费开发者许可证和可供购买的附加开发许可证。

Lite 套餐费用为 $749，并为您提供永久许可证。您还将获得30天的退款保证、一年的软件维护以及获取更新的机会。购买后，没有额外费用。您可以在生产、预发布和开发环境中使用此许可证。 IronPDF 还提供有限时间和分享限制的免费许可证。您可以试用30天且没有水印。关于IronPDF的价格以及如何获取试用版，请访问IronPDF的许可页面.

乔尔迪·巴尔迪亚

软件工程师

LinkedIn | Website

Jordi 最擅长 Python、C# 和 C++，当他不在 Iron Software 运用技能时，他会进行游戏编程。作为产品测试、产品开发和研究的负责人之一，Jordi 为持续的产品改进增添了极大的价值。多样化的经验让他充满挑战和参与感，他说这是他在 Iron Software 工作中最喜欢的方面之一。Jordi 在佛罗里达州迈阿密长大，并在佛罗里达大学学习计算机科学和统计学。

< 前一页
如何从Python中的PDF中提取图像

下一步 >
如何逐行提取PDF文本