使用IRONPDF FOR PYTHON

如何在 Python 中解析 PDF 文件

更新 2024年九月28日

1.0 简介

现代库使PDF创建更加简化。在为PDF项目选择库时，请考虑构建、读取和转换功能，以实现最佳集成和性能。 Python 提供像 IronPDF 这样的工具，可以高效解析现有的 PDF。

2.0 IronPDF

Python是一种编程语言，使开发人员能够快速且轻松地构建图形用户界面。与其他语言相比，它为程序员提供了更大的活力。因此，将IronPDF库与Python集成是一个简单的过程。

为了快速安全地构建功能完善的GUI，开发者可以利用多个预装工具，包括PyQt、wxWidgets、Kivy以及许多其他软件包和库。值得注意的是，IronPDF并不是一个纯粹的Python PDF库；相反，它允许包含来自其他框架（如.NET Core）的各种功能。

IronPDF 简化了 Python 网页设计和开发，尤其是由于 Python 网页开发范式如 Django、Flask 和 Pyramid 的受欢迎程度。包括Reddit、Mozilla和Spotify在内的知名网站和在线服务都使用了这些框架。您可以在IronPDF的Python上了解更多信息IronPDF for Python 网站.

2.1 IronPDF 的功能

IronPDF能够生成PDF文件来自各种来源，包括HTML、HTML5、ASPX和Razor/MVC视图。它提供了从HTML页面和图像创建PDF的功能。
IronPDF工具包提供了一系列工具，用于创建交互式PDF等任务，Fill out and submit interactive form, （意见）分歧和CombinePDF文件，提取文本和图像从PDF文件中提取文本，在PDF文件中搜索特定单词，将PDF页面栅格化为图像，将 PDF 转换为 HTML。
IronPDF支持用户代理、代理服务器、cookie、HTTP头和形变量，允许进行HTML登录表单验证。
访问受保护的文档在IronPDF中，通过使用用户名和密码授予权限。
IronPDF 有助于生成 PDF 文件和打印只需几行代码即可从字符串、流、URL 等各种来源生成。

3.0 设置 Python

3.1 环境设置

确保您的电脑上安装了Python。访问Python 官方网站下载并安装适合您操作系统的最新版本Python。一旦安装了Python，设置一个虚拟环境以隔离项目的依赖项。使用“venv”模块创建和管理虚拟环境，为您的转换项目提供一个干净且独立的工作空间。

3.2 在 PyCharm 中创建新项目

我们将使用 PyCharm，一个用于编写 Python 代码的集成开发环境（IDE），来进行此演示。

在启动 PyCharm IDE 后，点击“新建项目”。

如何在Python中解析PDF文件，图1：PyCharm欢迎屏幕

PyCharm 欢迎屏幕

当您选择“新项目”时，将会出现一个新窗口，允许您指定项目的位置和其环境。此新窗口可在下面的截图中看到。

如何在 Python 中解析 PDF 文件，图 2：PyCharm 中的新项目界面

PyCharm 中的新建项目界面

单击创建按钮，设置项目位置和环境路径后，开始一个新项目。这将打开一个新窗口，可以在其中开发程序。本教程建议使用 Python 3.9。

如何在Python中解析PDF文件，图3：在PyCharm中打开的主文件

在PyCharm中打开的主文件

3.3 IronPDF 库要求

IronPDF 是一个 Python 库，主要依赖于 .NET 6.0。因此，要使用 IronPDF for Python，您的电脑上必须安装 .NET 6.0 运行时。在Linux和Mac用户使用此Python模块之前，可能需要安装.NET。您可以从以下位置获取所需的运行时环境：.NET网站.

3.4 IronPDF 库设置

需要安装“ironpdf”软件包才能创建、编辑和打开扩展名为“.pdf”的文件。要在 PyCharm 中安装该软件包，请打开终端窗口并输入以下命令：

pip install ironpdf

下面的截图显示了‘ironpdf’包的设置。

如何在 Python 中解析 PDF 文件，图 4：使用 pip 安装 IronPDF 的终端显示

使用 pip 安装 IronPDF 的终端显示

4.0 使用IronPDF解析PDF

借助IronPDF库，可以从PDF文件中提取文本。 IronPDF 提供多种文本提取技术。第一种方法涉及将页面上的所有内容作为单个字符串获取。第二种方法是从第一页开始，逐页读取内容。以下代码片段演示了使用IronPDF检查当前PDF文件的模式。

从PDF中提取数据有两种方法：

按页从 PDF 中提取。
提取整个 PDF 为文本。
以下是我们将在本文中使用的PDF文件。它有两个页面。
在每页顶部有页码的PDF

4.0.1 按页面提取文本

下面提供的示例代码演示了如何使用页码从PDF文件中检索数据。

from ironpdf import *

pdfDocument = PdfDocument.FromFile("F:\\PDF\\1.pdf")
AllText = pdfDocument.ExtractTextFromPage(0)
print(AllText)

from ironpdf import *

pdfDocument = PdfDocument.FromFile("F:\\PDF\\1.pdf")
AllText = pdfDocument.ExtractTextFromPage(0)
print(AllText)

PYTHON

该代码片段演示了使用 FromFile 函数读取 PDF 文件并创建 PDF 文档对象的用法。该对象允许访问PDF中的文本和图像。要从特定页面提取文本，可以使用 ExtractTextFromPage 方法，通过提供页码作为参数。此方法将返回一个包含指定页面上所有单词的字符串。输出将显示如下。

如何在 Python 中解析 PDF 文件，图 6：终端截图，文本输出为“Page 1”

终端的截图，文字输出"Page 1"

结果中突出显示的矩形框是从PDF文件第一页提取的数据文本，其索引为0。

4.0.2 从所有页面提取

快速获取所有 PDF 内容为字符串的第一种方法在以下代码示例中展示。

# creating a PDF file object
pdf = PdfDocument.FromFile('F:\\PDF\\1.pdf')
all_text = pdf.ExtractAllText()
print(all_text)

# creating a PDF file object
pdf = PdfDocument.FromFile('F:\\PDF\\1.pdf')
all_text = pdf.ExtractAllText()
print(all_text)

PYTHON

上面的示例代码解释了如何从现有文件路径读取 PDF，并使用 FromFile 函数将其转换为 PDF 文件对象。 PDF 的纯文本将通过对象的 ExtractAllText 函数提取并转换为字符串，然后在终端上打印提取的文本。结果将显示如下。

如何在 Python 中解析 PDF 文件，图 7：带有文本输出“Page 1”和“Page 2”的终端屏幕截图

终端截图，文本输出为 "Page 1" 和 "Page 2"

结果中高亮显示的矩形框包含从PDF文件的所有页面提取的文本数据。

我们可以借助IronPDF使用C#创建PDF。要了解有关IronPDF的更多信息，请访问IronPDF 网站.

5.0 结论

为了减少风险并确保数据保护，IronPDF库提供了强有力的安全措施。它兼容所有常用浏览器，并不限于任何一个。 IronPDF使程序员只需几行代码即可轻松创建和读取PDF文件。为了满足开发人员的各种需求，IronPDF库提供多种许可选项，包括免费开发者许可证和可购买的额外开发许可证。

$749 Lite 套餐包含永久许可证、30 天退款保证、一年的软件支持以及升级可能性。首次购买后，没有额外费用。生产、暂存和开发环境都使用这些许可证。 IronPDF 还提供免费许可证，但有一些时间和再分发限制。在试用期内，用户可以在实际使用中测试产品而不会出现水印。有关IronPDF试用版的成本和许可证的详细信息，请访问IronPDF许可页面.

< 前一页
在 Python 中如何拆分 PDF 文件

下一步 >
如何在 Python 中从 PDF 中提取发票数据