使用IRONPDF FOR PYTHON

如何从Python中的PDF中提取图像

本文将使用IronPDF for Python通过Python代码从PDF文件中提取图像。

IronPDF for Python

IronPDF for Python 是一个先进而强大的库,为Python中的PDF文档处理带来了新的维度。 作为PDF任务的综合解决方案,IronPDF可实现将高级PDF功能无缝集成到应用程序中。

IronPDF 提供了广泛的工具和API,用于从头开始创建PDF、将HTML转换为高质量的PDF,以及通过合并、拆分和编辑来管理PDF页面。 这些工具是用户友好且高效的。 凭借其用户友好的界面和详尽的文档,IronPDF为开发者开启了无限可能。

无论是创建专业报告和发票、自动化工作流程还是管理文档,IronPDF 提供了在文档管理和自动化领域中的宝贵资产,使其成为任何开发者在 Python 应用程序中利用 PDF 功能的必备工具。

如何使用 IronPDF for Python 从 PDF 中提取图像

  1. 安装IronPDF库以在Python中从PDF中提取图像。

  2. 编写PdfDocument.FromFile方法以使用来自本地磁盘的文件路径加载PDF文件。

  3. 应用ExtractAllImages方法从PDF文件中提取图像。

  4. 使用循环遍历PDF中找到的所有提取的图像。

  5. 将这些从PDF文件中提取的图像保存为所需的图像扩展名。

先决条件

在深入了解如何使用Python从PDF中获取图像之前,让我们先安装必要的先决条件:

  1. Python 安装:请确保您的系统上安装了Python 解释器。 从PDF获取图像的过程将需要Python 3.0或更新版本。 确保您具有兼容的Python安装。

  2. IronPDF 库:要使用IronPDF的强大功能,您需要使用 Python 包管理器pip进行安装。 只需打开命令行界面并执行以下命令:
    :ProductInstall
    :ProductInstall
SHELL
  1. 集成开发环境(IDE):虽然不是强制性的,但使用IDE可以大大提升您的开发体验。 IDE 提供诸如代码补全、调试和更简化的工作流程等功能。 一个非常受欢迎的Python开发IDE是PyCharm。 您可以从JetBrains 网站下载和安装 PyCharm。

    一旦这些先决条件到位,您就可以通过Python和IronPDF探索从PDF中检索图像的精彩世界的分步指南。

第1步 创建一个新的 Python 项目

以下是在PyCharm中创建新Python项目的步骤。

  1. 要在 PyCharm 中启动一个新的 Python 项目,打开 PyCharm 应用程序并导航到顶部菜单。

  2. 点击文件,然后从下拉菜单中选择新建项目

    如何从 PDF 中提取图像 Python,图 1:PyCharm IDE

    PyCharm IDE

  3. 点击New Project后,将出现一个标题为Create Project的新窗口。

  4. 在此窗口中,在顶部的位置字段中输入您的项目名称。选择环境; 如果您正在使用虚拟环境,请从提供的选项中选择。

    如何在 Python 中从 PDF 中提取图像,图 2:在 PyCharm 中创建一个新的 Python 项目

    在PyCharm中创建一个新的Python项目

  5. 一旦选择了环境,点击创建按钮以创建您的Python项目。

    您的 Python 项目现已创建并可以用于各种任务,例如提取图像。

步骤 2 安装 IronPDF

要安装IronPDF,只需打开终端或单独的命令提示符,然后输入命令pip install ironpdf,然后按Enter键。 终端将显示以下输出。

如何从 PDF 中提取图像,图 3:安装 IronPDF 包

安装 IronPDF 包

步骤 3 使用 IronPDF 从 PDF 文件中提取图像

IronPDF 为开发人员提供工具和 API,使他们能够无缝地浏览 PDF 并识别和提取嵌入的图像。 无论是用于分析还是集成,IronPDF 都通过 Python 的灵活性简化了提取过程。 这使得在处理PDF和基于图像的应用程序时显得尤为重要。只需几行代码,它就可以从PDF文件中提取所有图像,这非常简单。

请参阅以下代码,以使用Python编程语言从PDF中提取图像。

from ironpdf import *

# Open PDF file
pdf = PdfDocument.FromFile("FYP Thesis.pdf") 

# Get all images found in PDF Document
all_images = pdf.ExtractAllImages()

# Save each image to the local disk image
for i, image in enumerate(all_images):
    image.SaveAs(f"output_image_{i}.png")
py
PYTHON

此代码首先导入IronPDF库,然后仅使用PdfDocument.FromFile方法结合文件路径从本地加载PDF文件。 然后它将访问 PDF 的每一页以将图像字节提取为 Image 对象。 这些来自 PDF 页面中的图像对象随后使用SaveAs方法保存。 在上述代码中,用户根据图像索引和图像扩展名(PNG)分配一个动态图像名称。

比替代使用如PyMuPDFPillow库更简单,这些库使用import fitz通过ExtractImage()提取图像,并使用from PIL import Image将字节转换为PIL图像实例以保存图像文件到磁盘。 IronPDF 通过仅需几行代码即可实现此功能。

步骤 4 将图像从 PDF 文件中保存下来。

图像从 PDF 文件的所有页面中提取并保存为 PNG 格式。 您还可以通过调整文件扩展名以匹配所需的图像文件格式,灵活地修改输出格式来保存可用的图像对象。

如何在 Python 中从 PDF 提取图像,图 4:从示例 PDF 文件中提取的图像

从示例PDF文件中提取的图像

结论

Python 与强大的 IronPDF 相结合,为从 PDF 文件中提取图像的任务提供了一种多功能且高效的解决方案。 利用 Python 的灵活性和 IronPDF 的功能,开发人员可以无缝地浏览 PDF 文档,定位其中的图像字节,并以所需的图像扩展名保存这些图像。 该过程包括从 PDF 中获取图像,生成的图像列表可以根据需要进一步处理和操作。 通过掌握使用Python从PDF中获取图像的艺术,开发人员可以提升他们的工作流程,实现文档管理自动化,并探索广泛的基于图像的应用程序,使其成为数字时代的一项宝贵技能。

有关从PDF文件中获取图片的更多功能,请访问以下示例。 您可以探索其他操作,例如将 PDF 文件内容转换为图像的选项,完整教程可在这篇Python 演示文章中找到。

查克尼特·宾
软件工程师
Chaknith 负责 IronXL 和 IronBarcode 的工作。他在 C# 和 .NET 方面拥有深厚的专业知识,帮助改进软件并支持客户。他从用户互动中获得的洞察力,有助于提升产品、文档和整体体验。
< 前一页
如何在Python中将PNG转换为PDF文件
下一步 >
如何在Python中从PDF提取数据

准备开始了吗? 版本: 2025.5 刚刚发布

查看许可证 >