使用IRONPDF FOR PYTHON

如何在Python中从PDF提取表格

更新 2024年九月21日
分享:

本文将演示如何使用 IronPDF(一个功能强大的 PDF 处理库)毫不费力地从任何 PDF 文件中的复杂表格中提取数据。

IronPDF

与其他语言相比,Python 为程序员提供了更大的灵活性,使开发人员能够轻松高效地设计图形用户界面。 因此,将 IronPDF 库纳入 Python 是一个简单明了的过程。 为了快速安全地创建功能齐全的图形用户界面,可以使用一系列预装工具,包括 PyQt、wxWidgets、Kivy 以及其他各种软件包和库。

IronPDF for Python 简化了 Python 网页设计和开发。 这主要是因为有大量的 Python 网络开发框架,如 Django、Flask 和 Pyramid。 采用这些框架的著名网站和在线服务包括 Reddit、Mozilla 和 Spotify。

IronPDF 的功能

以下是IronPDF:

  • PDF 文件可以是从各种来源创建例如 HTML、HTML5、ASP、PHP 等。 此外、图像文件可转换为 PDF同时提供 HTML 文件。
  • IronPDF 可以创建交互式 PDF 文档。 它具有分割和合并 PDF 文件等功能、提取文本和图像译自 PDF 文件、将 PDF 页面光栅化为图像翻译的内容包括:将 PDF 转换为 HTML、打印 PDF 文件、填写并提交 PDF 文档。交互式表单分拆合并PDF 文件。
  • 使用 IronPdf 可以从 URL 生成文档。 它还支持使用 HTML 登录表单、代理、cookie、HTTP 标头、特殊网络登录凭证、表单变量和用户代理登录的用户代理。
  • IronPDF 程序允许检查和标注的PDF文件。
  • IronPDF 可以从文档中提取图像。
  • IronPdf 为用户提供了添加页眉、页脚、文本、照片的功能、书签, Watermark此外,还需将.NET、Java、Python 或 Node.js 等术语翻译成文档。
  • 使用 IronPdf,您可以在新文档或现有文档中分割和合并页面。
  • 将文档转换为 PDF 对象无需使用 Acrobat 浏览器。
  • IronPdf 允许从 CSS 文件创建 PDF 文档。
  • 可以使用 IronPDF 创建包含媒体类型定义的 CSS 文件。

配置 Python 环境

设置 Python

确保您的计算机上安装了 Python。 要为您的操作系统下载和设置最新版本的 Python,请访问Python 官方网站. 安装 Python 后,通过创建一个虚拟环境来隔离项目需求。 在 venv 模块的帮助下,您可以创建和管理虚拟环境,为您的转换项目提供整洁有序的工作空间。

在 PyCharm 中新建项目

本教程推荐使用 Python 开发 IDE PyCharm。

启动 PyCharm IDE 后,从菜单中选择 "新建项目",如下图所示。

如何用 Python 从 PDF 中提取表格,图 1:PyCharm IDE

PyCharm IDE

如下图所示,当您选择 "新建项目 "时,会出现一个新窗口,允许您定义项目的位置和 Python 环境。

如何用 Python 从 PDF 中提取表格,图 2:在 PyCharm 中创建一个新项目

在 PyCharm 中创建一个新项目

选择项目的位置和环境后,单击创建按钮启动项目。 Python 文件可以在新启动的窗口中打开,供您输入代码。 本指南使用 Python 3.9。

如何用 Python 从 PDF 中提取表格,图 3:主 Python 文件

主要 Python 文件

IronPDF库要求

IronPDF for Python 以 .NET 6.0 为核心技术。 因此,要使用 IronPDF for Python,您的计算机必须安装 .NET 6.0 运行时。 Linux 和 Mac 用户在使用此 Python 模块之前可能需要安装 .NET。 从 Microsoft 下载必要的运行环境.

IronPDF 库设置

要创建、编辑和打开扩展名为".pdf "的文件,需要安装 IronPdf 软件包。 要在 PyCharm 中安装该软件包,请打开终端窗口并输入以下命令:

pip install ironpdf

下面的截图展示了 IronPdf 软件包的安装过程。

如何用 Python 从 PDF 中提取表格,图 4:安装 IronPDF for Python 软件包

安装IronPDF包

从 PDF 文件中提取表格数据

我们可以使用 IronPDF for Python 库毫不费力地从 PDF 文件中提取数据。 IronPdf 可帮助分析文本数据并从 PDF 文件中提取表格。 下面是一段示例代码,演示了如何利用提供的图片作为参考,从 PDF 表格中提取数据。

如何用 Python 从 PDF 中提取表格,图 5:PDF 文件中的示例数据

来自 PDF 文件的示例数据

from ironpdf import *

pdf = PdfDocument.FromFile("sampleData.pdf")
all_text = pdf.ExtractAllText()
for row in all_text.split("\n"):
    print(row)
PYTHON

所提供的代码演示了如何使用 IronPDF 从 PDF 文件中提取表格,只需几行 Python 代码。 最初,让我们导入 IronPDF 库以访问其功能,并获得 IronPDF 的所有特性。 接下来,在 PdfDocument 类的帮助下,可以处理现有的 PDF 文件,并允许对其执行各种操作。

使用 FromFile 函数时,可使用用于加载输入 PDF 文件的参数。 然后,使用 ExtractAllText 函数从 PDF 文件的所有页面中提取所有表格数据。 然后,使用 Split 函数将提取的表格数据分成多行并显示在控制台屏幕上。

如何用 Python 从 PDF 中提取表格,图 6:提取的数据

提取的数据

在上述输出中,数据逐行显示,展示了如何提取表格数据。 了解有关 IronPDF 的更多信息通过阅读产品文档.

结论

IronPdf 库提供了强大的安全措施,以最大限度地降低潜在风险并确保数据安全。 它与所有流行的浏览器兼容,不局限于任何特定浏览器。 有了 IronPdf,程序员只需几行代码就能高效地创建和读取 PDF 文件。 为了满足开发人员的不同需求,IronPDF 库提供了多种许可选项,包括免费的开发人员许可和可供购买的附加开发许可。

Lite 捆绑包售价为 $749,包括永久许可证、30 天退款保证、一年软件维护和升级可能性。 首次购买后不再收取任何费用,这些许可证可用于生产、暂存和开发环境。 IronPdf 还提供免费许可证,但有一定的时间和再分发限制。 用户可以在真实环境中通过免费试用不包含水印的时期。 有关 IronPDF 试用版的费用和许可的详细信息,请点击以下内容许可页面.

< 前一页
如何在Python中编写PDF文件
下一步 >
如何在Python中从URL下载PDF

准备开始了吗? 版本: 2024.11.1 刚刚发布

免费 pip 安装 查看许可证 >