from ironpdf import * # Instantiate Renderer renderer = ChromePdfRenderer() # Create a PDF from a HTML string using Python pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>") # Export to a file or Stream pdf.SaveAs("output.pdf") # Advanced Example with HTML Assets # Load external html assets: Images, CSS and JavaScript. # An optional BasePath 'C:\site\assets\' is set as the file location to load assets from myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", r"C:\site\assets") myAdvancedPdf.SaveAs("html-with-assets.pdf")

使用IRONPDF FOR PYTHON

如何在Python中从PDF提取表格

坎那帕·乌东攀

2023年七月22日

更新 2024年九月21日

本文将演示如何使用 IronPDF（一个功能强大的 PDF 处理库）毫不费力地从任何 PDF 文件中的复杂表格中提取数据。

IronPDF

与其他语言相比，Python 为程序员提供了更大的灵活性，使开发人员能够轻松高效地设计图形用户界面。因此，将 IronPDF 库纳入 Python 是一个简单明了的过程。为了快速安全地创建功能齐全的图形用户界面，可以使用一系列预装工具，包括 PyQt、wxWidgets、Kivy 以及其他各种软件包和库。

IronPDF for Python 简化了 Python 网页设计和开发。这主要是因为有大量的 Python 网络开发框架，如 Django、Flask 和 Pyramid。采用这些框架的著名网站和在线服务包括 Reddit、Mozilla 和 Spotify。

如何在Python中从PDF提取表格

下载用于从 PDF 中提取表格的 Python 模块
使用 发件人文件 方法导入 PDF 文件
使用 提取所有文本 方法
迭代提取的文本以分割行
将提取的文本输出到控制台或文本文件中

IronPDF 的功能

以下是IronPDF:

PDF 文件可以是从各种来源创建例如 HTML、HTML5、ASP、PHP 等。此外、图像文件可转换为 PDF同时提供 HTML 文件。
IronPDF 可以创建交互式 PDF 文档。它具有分割和合并 PDF 文件等功能、提取文本和图像译自 PDF 文件、将 PDF 页面光栅化为图像翻译的内容包括：将 PDF 转换为 HTML、打印 PDF 文件、填写并提交 PDF 文档。交互式表单和分拆和合并PDF 文件。
使用 IronPdf 可以从 URL 生成文档。它还支持使用 HTML 登录表单、代理、cookie、HTTP 标头、特殊网络登录凭证、表单变量和用户代理登录的用户代理。
IronPDF 程序允许检查和标注的PDF文件。
IronPDF 可以从文档中提取图像。
IronPdf 为用户提供了添加页眉、页脚、文本、照片的功能、书签, Watermark此外，还需将.NET、Java、Python 或 Node.js 等术语翻译成文档。
使用 IronPdf，您可以在新文档或现有文档中分割和合并页面。
将文档转换为 PDF 对象无需使用 Acrobat 浏览器。
IronPdf 允许从 CSS 文件创建 PDF 文档。
可以使用 IronPDF 创建包含媒体类型定义的 CSS 文件。

配置 Python 环境

设置 Python

确保您的计算机上安装了 Python。要为您的操作系统下载和设置最新版本的 Python，请访问Python 官方网站. 安装 Python 后，通过创建一个虚拟环境来隔离项目需求。在 venv 模块的帮助下，您可以创建和管理虚拟环境，为您的转换项目提供整洁有序的工作空间。

在 PyCharm 中新建项目

本教程推荐使用 Python 开发 IDE PyCharm。

启动 PyCharm IDE 后，从菜单中选择 "新建项目"，如下图所示。

如何用 Python 从 PDF 中提取表格，图 1：PyCharm IDE

PyCharm IDE

如下图所示，当您选择 "新建项目 "时，会出现一个新窗口，允许您定义项目的位置和 Python 环境。

如何用 Python 从 PDF 中提取表格，图 2：在 PyCharm 中创建一个新项目

在 PyCharm 中创建一个新项目

选择项目的位置和环境后，单击创建按钮启动项目。 Python 文件可以在新启动的窗口中打开，供您输入代码。本指南使用 Python 3.9。

如何用 Python 从 PDF 中提取表格，图 3：主 Python 文件

主要 Python 文件

IronPDF库要求

IronPDF for Python 以 .NET 6.0 为核心技术。因此，要使用 IronPDF for Python，您的计算机必须安装 .NET 6.0 运行时。 Linux 和 Mac 用户在使用此 Python 模块之前可能需要安装 .NET。从 Microsoft 下载必要的运行环境.

IronPDF 库设置

要创建、编辑和打开扩展名为".pdf "的文件，需要安装 IronPdf 软件包。要在 PyCharm 中安装该软件包，请打开终端窗口并输入以下命令：

pip install ironpdf

下面的截图展示了 IronPdf 软件包的安装过程。

如何用 Python 从 PDF 中提取表格，图 4：安装 IronPDF for Python 软件包

安装IronPDF包

从 PDF 文件中提取表格数据

我们可以使用 IronPDF for Python 库毫不费力地从 PDF 文件中提取数据。 IronPdf 可帮助分析文本数据并从 PDF 文件中提取表格。下面是一段示例代码，演示了如何利用提供的图片作为参考，从 PDF 表格中提取数据。

如何用 Python 从 PDF 中提取表格，图 5：PDF 文件中的示例数据

来自 PDF 文件的示例数据

from ironpdf import *

pdf = PdfDocument.FromFile("sampleData.pdf")
all_text = pdf.ExtractAllText()
for row in all_text.split("\n"):
    print(row)

from ironpdf import *

pdf = PdfDocument.FromFile("sampleData.pdf")
all_text = pdf.ExtractAllText()
for row in all_text.split("\n"):
    print(row)

PYTHON

所提供的代码演示了如何使用 IronPDF 从 PDF 文件中提取表格，只需几行 Python 代码。最初，让我们导入 IronPDF 库以访问其功能，并获得 IronPDF 的所有特性。接下来，在 PdfDocument 类的帮助下，可以处理现有的 PDF 文件，并允许对其执行各种操作。

使用 FromFile 函数时，可使用用于加载输入 PDF 文件的参数。然后，使用 ExtractAllText 函数从 PDF 文件的所有页面中提取所有表格数据。然后，使用 Split 函数将提取的表格数据分成多行并显示在控制台屏幕上。

如何用 Python 从 PDF 中提取表格，图 6：提取的数据

提取的数据

在上述输出中，数据逐行显示，展示了如何提取表格数据。了解有关 IronPDF 的更多信息通过阅读产品文档.

结论

IronPdf 库提供了强大的安全措施，以最大限度地降低潜在风险并确保数据安全。它与所有流行的浏览器兼容，不局限于任何特定浏览器。有了 IronPdf，程序员只需几行代码就能高效地创建和读取 PDF 文件。为了满足开发人员的不同需求，IronPDF 库提供了多种许可选项，包括免费的开发人员许可和可供购买的附加开发许可。

Lite 捆绑包售价为 $749，包括永久许可证、30 天退款保证、一年软件维护和升级可能性。首次购买后不再收取任何费用，这些许可证可用于生产、暂存和开发环境。 IronPdf 还提供免费许可证，但有一定的时间和再分发限制。用户可以在真实环境中通过免费试用不包含水印的时期。有关 IronPDF 试用版的费用和许可的详细信息，请点击以下内容许可页面.

坎那帕·乌东攀

立即与工程团队聊天

软件工程师

在成为软件工程师之前，Kannapat 从日本北海道大学完成了环境资源博士学位。在攻读学位期间，Kannapat 还成为了生物生产工程系车辆机器人实验室的成员。2022年，他利用自己的 C# 技能加入了 Iron Software 的工程团队，专注于 IronPDF。Kannapat 珍视他的工作，因为他能直接向编写 IronPDF 大部分代码的开发者学习。除了同伴学习，Kannapat 还享受在 Iron Software 工作的社交方面。不写代码或文档时，Kannapat 通常在 PS5 上玩游戏或重看《最后生还者》。

< 前一页
如何在Python中编写PDF文件

下一步 >
如何在Python中从URL下载PDF