使用IRONPDF FOR PYTHON

如何在 Python 中解析 PDF 文件

更新 2024年九月28日
分享:

1.0 简介

现代库使PDF创建更加简化。 在为PDF项目选择库时,请考虑构建、读取和转换功能,以实现最佳集成和性能。 Python 提供像 IronPDF 这样的工具,可以高效解析现有的 PDF。

2.0 IronPDF

Python是一种编程语言,使开发人员能够快速且轻松地构建图形用户界面。 与其他语言相比,它为程序员提供了更大的活力。 因此,将IronPDF库与Python集成是一个简单的过程。

为了快速安全地构建功能完善的GUI,开发者可以利用多个预装工具,包括PyQt、wxWidgets、Kivy以及许多其他软件包和库。 值得注意的是,IronPDF并不是一个纯粹的Python PDF库; 相反,它允许包含来自其他框架(如.NET Core)的各种功能。

IronPDF 简化了 Python 网页设计和开发,尤其是由于 Python 网页开发范式如 Django、Flask 和 Pyramid 的受欢迎程度。 包括Reddit、Mozilla和Spotify在内的知名网站和在线服务都使用了这些框架。 您可以在IronPDF的Python上了解更多信息IronPDF for Python 网站.

2.1 IronPDF 的功能

3.0 设置 Python

3.1 环境设置

确保您的电脑上安装了Python。 访问Python 官方网站下载并安装适合您操作系统的最新版本Python。 一旦安装了Python,设置一个虚拟环境以隔离项目的依赖项。 使用“venv”模块创建和管理虚拟环境,为您的转换项目提供一个干净且独立的工作空间。

3.2 在 PyCharm 中创建新项目

我们将使用 PyCharm,一个用于编写 Python 代码的集成开发环境(IDE),来进行此演示。

在启动 PyCharm IDE 后,点击“新建项目”。

如何在Python中解析PDF文件,图1:PyCharm欢迎屏幕

PyCharm 欢迎屏幕

当您选择“新项目”时,将会出现一个新窗口,允许您指定项目的位置和其环境。 此新窗口可在下面的截图中看到。

如何在 Python 中解析 PDF 文件,图 2:PyCharm 中的新项目界面

PyCharm 中的新建项目界面

单击创建按钮,设置项目位置和环境路径后,开始一个新项目。 这将打开一个新窗口,可以在其中开发程序。 本教程建议使用 Python 3.9。

如何在Python中解析PDF文件,图3:在PyCharm中打开的主文件

在PyCharm中打开的主文件

3.3 IronPDF 库要求

IronPDF 是一个 Python 库,主要依赖于 .NET 6.0。因此,要使用 IronPDF for Python,您的电脑上必须安装 .NET 6.0 运行时。 在Linux和Mac用户使用此Python模块之前,可能需要安装.NET。 您可以从以下位置获取所需的运行时环境:.NET网站.

3.4 IronPDF 库设置

需要安装“ironpdf”软件包才能创建、编辑和打开扩展名为“.pdf”的文件。 要在 PyCharm 中安装该软件包,请打开终端窗口并输入以下命令:

pip install ironpdf

下面的截图显示了‘ironpdf’包的设置。

如何在 Python 中解析 PDF 文件,图 4:使用 pip 安装 IronPDF 的终端显示

使用 pip 安装 IronPDF 的终端显示

4.0 使用IronPDF解析PDF

借助IronPDF库,可以从PDF文件中提取文本。 IronPDF 提供多种文本提取技术。 第一种方法涉及将页面上的所有内容作为单个字符串获取。 第二种方法是从第一页开始,逐页读取内容。 以下代码片段演示了使用IronPDF检查当前PDF文件的模式。

从PDF中提取数据有两种方法:

  1. 按页从 PDF 中提取。

  2. 提取整个 PDF 为文本。

    以下是我们将在本文中使用的PDF文件。 它有两个页面。

    如何在Python中解析PDF文件,图5:每页顶部带页码的PDF

    在每页顶部有页码的PDF

4.0.1 按页面提取文本

下面提供的示例代码演示了如何使用页码从PDF文件中检索数据。

from ironpdf import *

pdfDocument = PdfDocument.FromFile("F:\\PDF\\1.pdf")
AllText = pdfDocument.ExtractTextFromPage(0)
print(AllText)
PYTHON

该代码片段演示了使用 FromFile 函数读取 PDF 文件并创建 PDF 文档对象的用法。 该对象允许访问PDF中的文本和图像。 要从特定页面提取文本,可以使用 ExtractTextFromPage 方法,通过提供页码作为参数。 此方法将返回一个包含指定页面上所有单词的字符串。 输出将显示如下。

如何在 Python 中解析 PDF 文件,图 6:终端截图,文本输出为“Page 1”

终端的截图,文字输出"Page 1"

结果中突出显示的矩形框是从PDF文件第一页提取的数据文本,其索引为0。

4.0.2 从所有页面提取

快速获取所有 PDF 内容为字符串的第一种方法在以下代码示例中展示。

# creating a PDF file object
pdf = PdfDocument.FromFile('F:\\PDF\\1.pdf')
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON

上面的示例代码解释了如何从现有文件路径读取 PDF,并使用 FromFile 函数将其转换为 PDF 文件对象。 PDF 的纯文本将通过对象的 ExtractAllText 函数提取并转换为字符串,然后在终端上打印提取的文本。 结果将显示如下。

如何在 Python 中解析 PDF 文件,图 7:带有文本输出“Page 1”和“Page 2”的终端屏幕截图

终端截图,文本输出为 "Page 1" 和 "Page 2"

结果中高亮显示的矩形框包含从PDF文件的所有页面提取的文本数据。

我们可以借助IronPDF使用C#创建PDF。 要了解有关IronPDF的更多信息,请访问IronPDF 网站.

5.0 结论

为了减少风险并确保数据保护,IronPDF库提供了强有力的安全措施。 它兼容所有常用浏览器,并不限于任何一个。 IronPDF使程序员只需几行代码即可轻松创建和读取PDF文件。 为了满足开发人员的各种需求,IronPDF库提供多种许可选项,包括免费开发者许可证和可购买的额外开发许可证。

$749 Lite 套餐包含永久许可证、30 天退款保证、一年的软件支持以及升级可能性。 首次购买后,没有额外费用。 生产、暂存和开发环境都使用这些许可证。 IronPDF 还提供免费许可证,但有一些时间和再分发限制。 在试用期内,用户可以在实际使用中测试产品而不会出现水印。 有关IronPDF试用版的成本和许可证的详细信息,请访问IronPDF许可页面.

< 前一页
在 Python 中如何拆分 PDF 文件
下一步 >
如何在 Python 中从 PDF 中提取发票数据

准备开始了吗? 版本: 2024.11.1 刚刚发布

免费 pip 安装 查看许可证 >