使用IRONPDF FOR PYTHON

如何在Python中从PDF提取表格

发布 2023年七月22日
分享:

简介

说到文档共享,便携式文档格式 (PDF)由 Adobe 公司创建的 PDF 文件对于保持文本丰富、美观的信息的完整性至关重要。要访问在线 PDF 文件,通常需要一个特定的程序。如今,许多重要的数字出版物都需要 PDF 文件。许多企业利用 PDF 文件创建专业文书和发票。开发人员经常使用库来创建满足特定消费者需求的 PDF 文档。现代库的发展简化了 PDF 的制作过程。在为需要创建 PDF 的项目选择合适的库时,必须考虑构建、读取和转换功能,以保证无缝集成和最佳性能。有许多 Python 库可用,但在本文中,我们将使用功能强大的 PDF 处理库 IronPDF。

2.0 IronPDF

与其他语言相比,Python 为程序员提供了更大的灵活性,允许开发人员轻松高效地设计图形用户界面。因此,将 IronPDF 库整合到 Python 中是一个简单易行的过程。为了快速、安全地创建功能齐全的图形用户界面,可以使用一系列预装工具,包括 PyQt、wxWidgets、Kivy 以及其他各种软件包和库。

IronPDF 简化了 Python 网页设计和开发。这主要归功于大量可用的 Python 网络开发框架,如 Django、Flask 和 Pyramid。采用这些框架的著名网站和在线服务包括 Reddit、Mozilla 和 Spotify。

2.1 IronPDF 的功能

以下是 IronPDF:

  • 可从 HTML、HTML5、ASP、PHP 等来源创建 PDF 文件。此外,还可将图像文件与 HTML 文件一起转换为 PDF。
  • IronPDF 可以创建交互式 PDF 文档。它提供的功能包括分割和合并 PDF 文件、从 PDF 文件中提取文本和图像、将 PDF 页面光栅化为图像、将 PDF 转换为 HTML、打印 PDF 文件、填写和提交交互式表单以及分割和合并 PDF 文件。
  • 使用 IronPDF,可以从 URL 生成文档。它还支持使用 HTML 登录表单、代理、cookies、HTTP 标头、特殊网络登录凭证、表单变量和用户代理登录的用户代理。
  • IronPDF 程序允许对 PDF 文件进行检查和注释。
  • IronPDF 可从文件中提取图像。
  • IronPDF 还能为文档添加页眉、页脚、文本、照片、书签和水印等。
  • 使用 IronPDF,您可以在新文档或现有文档中分割和合并页面。
  • 将文档转换为 PDF 对象无需使用 Acrobat 浏览器。
  • IronPDF 允许从 CSS 文件创建 PDF 文档。
  • 通过 IronPDF,可以使用包含媒体类型定义的 CSS 文件创建文档。

3.0 配置 Python 环境

3.1 设置 Python

确保计算机上安装了 Python。要为您的操作系统下载和设置最新版本的 Python,请访问 Python 官方网站 网站.安装 Python 后,可通过创建虚拟环境来隔离项目需求。借助 venv 模块,您可以创建和管理虚拟环境,为您的转换项目提供整洁有序的工作空间。

3.2 PyCharm 中的新项目

在本教程中,我们将使用 Python 开发的集成开发环境 PyCharm。

启动 PyCharm IDE 后,从菜单中选择 "新建项目",如下图所示。

如何用 Python 从 PDF 中提取表格:图 1

如下图所示,选择 "新建项目 "后,会出现一个新窗口,允许你定义项目的位置和 Python 环境。

如何用 Python 从 PDF 中提取表格:图 2

选择项目的位置和环境后,点击 "创建 "按钮启动项目。在新启动的窗口中可以打开 Python 文件,供您输入代码。本指南使用 Python 3.9。

如何用 Python 从 PDF 中提取表格:图 3

3.3 IronPDF 库要求

IronPDF for Python 依赖于 .NET 6.0 作为其核心技术。因此,要使用 IronPDF Python,您的计算机必须安装 .NET 6.0 运行时。Linux 和 Mac 用户在使用此 Python 模块之前可能需要安装 Dot NET。要获取必要的运行环境,请访问以下链接 链接.

3.4 IronPDF 库设置

为了创建、编辑和打开扩展名为".pdf "的文件,需要安装 ironpdf 软件包。要在 PyCharm 中安装该软件包,请打开终端窗口并键入以下命令:

 pip install ironpdf

下面的截图说明了 ironpdf 软件包的安装过程。

如何用 Python 从 PDF 中提取表格:图 4

4.0 从 PDF 文件提取表格数据

使用 IronPDF Python 库,我们可以毫不费力地从 PDF 文件中提取数据。IronPDF 为分析文本数据和从 PDF 文件中提取表格提供了便利。下面是一段示例代码,利用提供的图片作为参考,演示了如何从 PDF 表格中提取数据。

如何用 Python 从 PDF 中提取表格:图 5

from ironpdf import *
pdf = PdfDocument.FromFile("sampleData.pdf")
all_text = pdf.ExtractAllText()
for row in all_text.split("\n"):
    print(row)
PYTHON

所提供的代码演示了如何使用 IronPDF 从 PDF 文件中提取表格,只需几行 Python 代码。首先,我们导入 IronPDF 库以访问其功能。通过使用该库,我们可以访问 IronPDF 的所有功能。接下来,在 PdfDocument 类的帮助下,我们可以处理现有的 PDF 文件,对其执行各种操作。

使用 FromFile 函数时,可使用参数加载输入的 PDF 文件。通过将文件位置作为参数传递,我们可以加载现有的 PDF 文件。然后,我们使用ExtractAllText函数从 PDF 文件的所有页面中提取所有表格数据。随后,我们使用Split函数将提取的表格数据分成多行并显示在控制台屏幕上。

如何用 Python 从 PDF 中提取表格:图 6

在上述输出中,数据逐行显示,展示了如何提取表格数据。如果您想了解有关 IronPDF 的更多信息,请查看以下内容 .

5.0 结论

IronPDF 库提供了强大的安全措施,可最大限度地降低潜在风险并确保数据安全。它兼容所有流行的浏览器,而不局限于任何特定的浏览器。有了 IronPDF,程序员只需几行代码就能高效地创建和读取 PDF 文件。为了满足开发人员的不同需求,IronPDF 库提供了多种许可选项,包括免费的开发人员许可和可购买的额外开发许可。

售价为 $749 的精简版捆绑包包括永久许可证、30 天退款保证、一年软件维护和升级可能性。首次购买后不再收取任何费用,这些许可证可用于生产、暂存和开发环境。IronPDF 还提供免费许可证,但有一定的时间和再分发限制。用户可以在实际环境中通过 免费试用 试用期不包括水印。有关 IronPDF 试用版的成本和许可的详细信息,请点击以下链接 链接.

< 前一页
如何在Python中编写PDF文件
下一步 >
如何在Python中从URL下载PDF

准备开始了吗? 版本: 2024.9 刚刚发布

免费 pip 安装 查看许可证 >