使用IRONPDF FOR PYTHON

如何在 Python 中解析 PDF 文件

发布 2023年九月13日
分享:

1.0 引言

便携式文档格式 (PDF)在文档共享方面,Adobe 开发的 PDF 是保持文本丰富、美观的信息完整性的关键。通常,访问在线 PDF 文件需要一个特定的程序。如今,许多重要的数字出版物都需要 PDF 文件。许多公司使用 PDF 文件准备专业文件和发票。此外,开发人员还经常利用 PDF 文档生成库来满足客户的特定要求。

现代库的开发简化了创建 PDF 的过程。在为涉及 PDF 创建的项目选择合适的库时,关键是要考虑其构建、读取和转换功能,以实现平滑集成和最佳性能。通过使用 Python,我们可以解析现有的 PDF。

2.0 IronPDF

Python 是一种编程语言,能让开发人员快速、轻松地构建图形用户界面。与其他语言相比,它为程序员提供了更大的活力。因此,将 IronPDF 库与 Python 整合是一个简单的过程。

为了快速、安全地构建功能齐全的图形用户界面,开发人员可以使用多个预装工具,包括 PyQt、wxWidgets、Kivy 以及许多其他软件包和库。值得注意的是,IronPDF 并不是一个纯粹的 Python PDF 库;相反,它允许加入 Dot Net Core 等其他框架的各种功能。

IronPDF 简化了 Python 网页设计和开发,特别是由于 Django、Flask 和 Pyramid 等 Python 网页开发范例的流行。包括 Reddit、Mozilla 和 Spotify 在内的著名网站和在线服务都使用了这些框架。您可以在 IronPDF 的 IronPDF Python 网站.

2.1 IronPDF 的功能

  • IronPDF 能够从各种来源生成 PDF 文件,包括 HTML、HTML5、ASPX 和 Razor/MVC View。它提供从 HTML 页面和图像创建 PDF 的功能。
  • IronPDF 工具包为创建交互式 PDF、填写和提交交互式表单、合并和拆分 PDF 文件、提取文本和图像、搜索 PDF 文件中的文本、将 PDF 光栅化为图像、调整字体大小和转换 PDF 文件等任务提供了一系列工具。
  • IronPDF 支持用户代理、代理、cookies、HTTP 标头和形状变量,允许 HTML 登录表单验证。
  • 通过使用用户名和密码,可以访问 IronPDF 中受保护的文档。

  • 只需几行代码,IronPDF 就能帮助我们从字符串、流、URL 等各种来源生成 PDF 文件并打印出来。

3.0 设置 Python

3.1 环境设置

确保电脑上已安装 Python。访问 Python 官方网站 下载并安装适合您操作系统的最新 Python 版本。安装好 Python 后,设置一个虚拟环境来隔离项目的依赖关系。使用 "venv "模块创建和管理虚拟环境,为您的转换项目提供一个干净、独立的工作空间。

3.2 Pycharm 中的新项目

我们将使用 PyCharm(一个用于编写 Python 代码的 IDE)进行演示。

启动 PyCharm IDE 后,点击 "新建项目"。

如何用 Python 解析 PDF 文件:图 1 - PyCharm 的欢迎界面。

选择 "新建项目 "后,会出现一个新窗口,允许您指定项目的位置和环境。这个新窗口可以在下面的截图中看到。

如何用 Python 解析 PDF 文件:图 2 - PyCharm 中的新项目屏幕。

设置项目位置和环境路径后,点击 "创建 "按钮启动新项目。这将打开一个新窗口,在此开发程序。本教程使用 Python 3.9。

如何用 Python 解析 PDF 文件:图 3 - 在 PyCharm 中打开的主文件。

3.3 IronPDF 库要求

IronPDF 是一个 Python 库,主要依赖于 .NET 6.0。因此,要使用 IronPDF Python,您的电脑必须安装 .NET 6.0 运行时。在 Linux 和 Mac 用户使用该 Python 模块之前,可能需要安装 Dot NET。您可以从 .NET网站.

*3.4 IronPDF 库设置***

要创建、编辑和打开扩展名为".pdf "的文件,需要安装 "ironpdf "软件包。要在 PyCharm 中安装该软件包,请打开终端窗口并键入以下命令:

pip install ironpdf

下面的截图显示了 "ironpdf "软件包的设置。

如何用 Python 解析 PDF 文件:图 4 - 显示使用 pip 安装 IronPDF 的终端。

4.0 使用 IronPDF 解析 PDF

在 IronPDF 库的帮助下,我们还可以从 PDF 文件中提取文本。IronPDF 提供了多种文本提取技术。第一种方法是以单个字符串的形式检索页面上的所有内容。第二种方法是从第一页开始逐页读取内容。使用 IronPDF 库,我们可以探索现有的 PDF 文件。下面的代码片段演示了使用 IronPDF 检查当前 PDF 文件的模式。

有两种方法可供我们从 PDF 中提取数据:

1.从 PDF 中按页提取。

2.以文本形式提取整个 PDF。

下面是我们要在本文中使用的 PDF 文件。它有两页。

如何用 Python 解析 PDF 文件:图 5 - 每页顶部都有页码的 PDF。

4.0.1 按页面提取文本

下面提供的示例代码演示了如何使用页码从 PDF 文件中提取数据。

from ironpdf import *
pdfDocument = PdfDocument.FromFile("F:\\PDF\\1.pdf")
AllText = pdfDocument.ExtractTextFromPage(0)
print(AllText)
PYTHON

代码片段演示了如何使用 FromFile 函数读取 PDF 文件并创建 PDF 文档对象。通过该对象,我们可以访问 PDF 中的文本和图像。要从特定页面提取文本,我们可以使用 "ExtractTextFromPage "方法,将页码作为参数。该方法将返回一个字符串,其中包含指定页面上的所有文字。输出显示如下。

如何用 Python 解析 PDF 文件:图 6 - 终端截图,文本输出为 第 1 页。

结果中突出显示的矩形框是从索引为 0 的第 1 页 PDF 文件中提取的文本数据。

4.0.2 从所有页面提取内容

以字符串形式快速、轻松地获取所有 PDF 内容的第一种方法见下面的代码示例。

# creating a pdf file object pdfFileObj 
pdf = PdfDocument.FromFile('F:\\PDF\\1.pdf')
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON

上图所示的示例代码说明了如何使用 FromFile 函数从现有文件路径读取 PDF 并将其转化为 PDF 文件对象。我们可以使用该 PDF 阅读器对象查看 PDF 的文本和图像作为响应。我们将使用该对象的 ExtractAllText 函数提取 PDF 的纯文本并将其转换为字符串,然后在终端上打印提取的文本。结果如下所示。

如何用 Python 解析 PDF 文件:图 7 - 终端截图,文本输出为 第 1 页 和 第 2 页。

结果中突出显示的矩形框包含从 PDF 文件所有页面中提取的数据文本。

在 IronPDF 的帮助下,我们可以使用 C# 创建 PDF。要了解有关 IronPDF 的更多信息,请访问 IronPDF 网站.

5.0 结论

为了将风险降至最低并确保数据得到保护,IronPDF 库提供了强大的安全措施。它与所有常用浏览器兼容,不局限于任何一种浏览器。IronPDF 使程序员只需几行代码就能轻松创建和读取 PDF 文件。为了满足开发人员的各种需求,IronPDF 库提供了多种许可选项,包括免费的开发人员许可和可购买的附加开发许可。

$749 简装版软件包包含永久许可证、30 天退款保证、一年软件支持和升级可能性。除首次购买外,不收取额外费用。生产、暂存和开发环境均可使用这些许可证。IronPDF 还提供免费许可证,但有一些时间和再分发限制。在免费试用期内,用户可以在没有水印的情况下测试产品的实际使用情况。有关 IronPDF 试用版的成本和许可的更多详情,请访问 IronPDF 网站.

< 前一页
在 Python 中如何拆分 PDF 文件
下一步 >
如何在 Python 中从 PDF 中提取发票数据

准备开始了吗? 版本: 2024.9 刚刚发布

免费 pip 安装 查看许可证 >