使用IRONPDF FOR PYTHON

如何在 Python 中解析 PDF 文件

1.0 简介

现代库使PDF创建更加简化。 在为PDF项目选择库时,请考虑构建、读取和转换功能,以实现最佳集成和性能。 Python 提供像 IronPDF 这样的工具,可以高效解析现有的 PDF。

2.0 IronPDF

Python是一种编程语言,使开发人员能够快速且轻松地构建图形用户界面。 与其他语言相比,它为程序员提供了更大的活力。 因此,将IronPDF库与Python集成是一个简单的过程。

为了快速安全地构建功能完善的GUI,开发者可以利用多个预装工具,包括PyQt、wxWidgets、Kivy以及许多其他软件包和库。 值得注意的是,IronPDF并不是一个纯粹的Python PDF库; 相反,它允许包含来自其他框架(如.NET Core)的各种功能。

IronPDF 简化了 Python 网页设计和开发,尤其是由于 Python 网页开发范式如 Django、Flask 和 Pyramid 的受欢迎程度。 包括Reddit、Mozilla和Spotify在内的知名网站和在线服务都使用了这些框架。 您可以在IronPDF for Python 网站上了解有关 IronPDF 中 Python 的更多信息。

2.1 IronPDF 的功能

  • IronPDF 能够从各种来源生成 PDF 文件,包括 HTML、HTML5、ASPX 和 Razor/MVC 视图。 它提供了从HTML页面和图像创建PDF的功能。
  • IronPDF工具包提供了一系列工具用于执行各种任务,例如创建交互式PDF,填写和提交交互式表单拆分合并PDF文件,从PDF文件中提取文本和图像,在PDF文件中搜索特定词汇,将PDF页面栅格化为图像,将PDF转换为HTML。
  • IronPDF支持用户代理、代理服务器、cookie、HTTP头和形变量,允许进行HTML登录表单验证。
  • 访问受保护的文档 在IronPDF中通过使用用户名和密码授予。
  • IronPDF 通过从字符串、流、URL 等各种来源生成 PDF 文件,并只需几行代码即可打印

3.0 设置 Python

3.1 环境设置

确保您的电脑上安装了Python。 请访问官方 Python 网站,以下载并安装适合您操作系统的最新版本的 Python。 一旦安装了Python,设置一个虚拟环境以隔离项目的依赖项。 使用“venv”模块创建和管理虚拟环境,为您的转换项目提供一个干净且独立的工作空间。

3.2 在 PyCharm 中创建新项目

我们将使用 PyCharm,一个用于编写 Python 代码的集成开发环境(IDE),来进行此演示。

在启动 PyCharm IDE 后,点击“新建项目”。

如何在Python中解析PDF文件,图1:PyCharm欢迎屏幕

PyCharm 欢迎界面

当您选择“新项目”时,将会出现一个新窗口,允许您指定项目的位置和其环境。 此新窗口可在下面的截图中看到。

如何在Python中解析PDF文件,图2:PyCharm中的新项目屏幕

PyCharm中的新项目屏幕

在设置项目位置和环境路径后,点击创建按钮以开始一个新项目。 这将打开一个新窗口,可以在其中开发程序。 本教程建议使用 Python 3.9。

如何在Python中解析PDF文件,图3:在PyCharm中打开的主文件

PyCharm 中打开的主文件

3.3 IronPDF 库要求

IronPDF 是一个 Python 库,主要依赖于 .NET 6.0。因此,要使用 IronPDF for Python,您的电脑上必须安装 .NET 6.0 运行时。 在Linux和Mac用户使用此Python模块之前,可能需要安装.NET。 您可以从.NET 网站获取所需的运行时环境。

3.4 IronPDF 库设置

需要安装“ironpdf”软件包才能创建、编辑和打开扩展名为“.pdf”的文件。 要在 PyCharm 中安装该软件包,请打开终端窗口并输入以下命令:

pip install ironpdf
pip install ironpdf
SHELL

下面的截图显示了‘ironpdf’包的设置。

如何在Python中解析PDF文件,图4:终端显示使用pip安装IronPDF

显示使用 pip 安装 IronPDF 的终端

4.0 使用IronPDF解析PDF

借助IronPDF库,可以从PDF文件中提取文本。 IronPDF 提供多种文本提取技术。 第一种方法涉及将页面上的所有内容作为单个字符串获取。 第二种方法是从第一页开始,逐页读取内容。 以下代码片段演示了使用IronPDF检查当前PDF文件的模式。

从PDF中提取数据有两种方法:

  1. 按页从 PDF 中提取。

  2. 提取整个 PDF 为文本。

    以下是我们将在本文中使用的PDF文件。 它有两个页面。

    如何在 Python 中解析 PDF 文件,图 5:一个每页顶部都有页码的 PDF

    每页顶部都有页码的PDF

4.0.1 按页面提取文本

下面提供的示例代码演示了如何使用页码从PDF文件中检索数据。

from ironpdf import *

pdfDocument = PdfDocument.FromFile("F:\\PDF\\1.pdf")
AllText = pdfDocument.ExtractTextFromPage(0)
print(AllText)
py
PYTHON

该代码片段演示了使用 FromFile 函数读取 PDF 文件并创建 PDF 文档对象的用法。 该对象允许访问PDF中的文本和图像。 要从特定页面提取文本,可以通过将页码作为参数提供给ExtractTextFromPage方法来实现。 此方法将返回一个包含指定页面上所有单词的字符串。 输出将显示如下。

如何在Python中解析PDF文件,图6:终端截图,文本输出 Page 1

终端截图,文本输出“Page 1”

结果中突出显示的矩形框是从PDF文件第一页提取的数据文本,其索引为0。

4.0.2 从所有页面提取

快速获取所有 PDF 内容为字符串的第一种方法在以下代码示例中展示。

# creating a PDF file object
pdf = PdfDocument.FromFile('F:\\PDF\\1.pdf')
all_text = pdf.ExtractAllText()
print(all_text)
py
PYTHON

上面显示的示例代码解释了如何从现有文件路径读取PDF,并使用FromFile函数将其转换为PDF文件对象。 使用对象的ExtractAllText函数提取PDF的纯文本并将其转换为字符串,然后在终端上打印提取的文本。 结果将显示如下。

如何在 Python 中解析 PDF 文件,图 7:终端的截图,文本输出为“第 1 页”和“第 2 页”

终端的截图显示文本输出 "Page 1" 和 "Page 2"

结果中高亮显示的矩形框包含从PDF文件的所有页面提取的文本数据。

我们可以借助IronPDF使用C#创建PDF。 要了解更多关于IronPDF的信息,请访问IronPDF网站

5.0 结论

为了减少风险并确保数据保护,IronPDF库提供了强有力的安全措施。 它兼容所有常用浏览器,并不限于任何一个。 IronPDF使程序员只需几行代码即可轻松创建和读取PDF文件。 为了满足开发人员的各种需求,IronPDF库提供多种许可选项,包括免费开发者许可证和可购买的额外开发许可证。

$749 Lite 包含永久许可证、30 天退款保证、一年的软件支持和升级可能性。 首次购买后,没有额外费用。 生产、暂存和开发环境都使用这些许可证。 IronPDF 还提供免费许可证,但有一些时间和再分发限制。 在试用期内,用户可以在实际使用中测试产品而不会出现水印。 有关 IronPDF 试用版的费用和许可的详细信息,请访问 IronPDF 许可页面

查克尼特·宾
软件工程师
Chaknith 负责 IronXL 和 IronBarcode 的工作。他在 C# 和 .NET 方面拥有深厚的专业知识,帮助改进软件并支持客户。他从用户互动中获得的洞察力,有助于提升产品、文档和整体体验。
< 前一页
在 Python 中如何拆分 PDF 文件
下一步 >
如何在 Python 中从 PDF 中提取发票数据

准备开始了吗? 版本: 2025.5 刚刚发布

查看许可证 >