from ironpdf import * # Instantiate Renderer renderer = ChromePdfRenderer() # Create a PDF from a HTML string using Python pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>") # Export to a file or Stream pdf.SaveAs("output.pdf") # Advanced Example with HTML Assets # Load external html assets: Images, CSS and JavaScript. # An optional BasePath 'C:\site\assets\' is set as the file location to load assets from myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", r"C:\site\assets") myAdvancedPdf.SaveAs("html-with-assets.pdf")

使用IRONPDF FOR PYTHON

如何从Python中的PDF中提取图像

查克尼特·宾

2023年十一月14日

更新 2024年九月28日

本文将使用IronPDF for Python通过Python代码从PDF文件中提取图像。

IronPDF for Python

IronPDF for Python 是一个先进而强大的库，为Python中的PDF文档处理带来了新的维度。作为PDF任务的综合解决方案，IronPDF可实现将高级PDF功能无缝集成到应用程序中。

IronPDF 提供了广泛的工具和API，用于从头开始创建PDF、将HTML转换为高质量的PDF，以及通过合并、拆分和编辑来管理PDF页面。这些工具是用户友好且高效的。凭借其用户友好的界面和详尽的文档，IronPDF为开发者开启了无限可能。

无论是创建专业报告和发票、自动化工作流程还是管理文档，IronPDF 提供了在文档管理和自动化领域中的宝贵资产，使其成为任何开发者在 Python 应用程序中利用 PDF 功能的必备工具。

如何使用 IronPDF for Python 从 PDF 中提取图像

安装IronPDF库以在Python中从PDF中提取图像。
编写PdfDocument.FromFile方法以使用来自本地磁盘的文件路径加载PDF文件。
应用ExtractAllImages方法从PDF文件中提取图像。
使用循环遍历PDF中找到的所有提取的图像。
将这些从PDF文件中提取的图像保存为所需的图像扩展名。

先决条件

在深入了解如何使用Python从PDF中获取图像之前，让我们先安装必要的先决条件：

Python 安装：请确保您的系统上安装了Python 解释器。从PDF获取图像的过程将需要Python 3.0或更新版本。确保您具有兼容的Python安装。
IronPDF 库：要使用IronPDF的强大功能，您需要使用 Python 包管理器pip进行安装。只需打开命令行界面并执行以下命令：

    :ProductInstall

    :ProductInstall

SHELL

集成开发环境（IDE）：虽然不是强制性的，但使用IDE可以大大提升您的开发体验。 IDE 提供诸如代码补全、调试和更简化的工作流程等功能。一个非常受欢迎的Python开发IDE是PyCharm。您可以从JetBrains 网站下载和安装 PyCharm。
一旦这些先决条件到位，您就可以通过Python和IronPDF探索从PDF中检索图像的精彩世界的分步指南。

第1步创建一个新的 Python 项目

以下是在PyCharm中创建新Python项目的步骤。

要在 PyCharm 中启动一个新的 Python 项目，打开 PyCharm 应用程序并导航到顶部菜单。
点击文件，然后从下拉菜单中选择新建项目。
PyCharm IDE
点击New Project后，将出现一个标题为Create Project的新窗口。
在此窗口中，在顶部的位置字段中输入您的项目名称。选择环境；如果您正在使用虚拟环境，请从提供的选项中选择。
在PyCharm中创建一个新的Python项目
一旦选择了环境，点击创建按钮以创建您的Python项目。
您的 Python 项目现已创建并可以用于各种任务，例如提取图像。

步骤 2 安装 IronPDF

要安装IronPDF，只需打开终端或单独的命令提示符，然后输入命令pip install ironpdf，然后按Enter键。终端将显示以下输出。

如何从 PDF 中提取图像，图 3：安装 IronPDF 包

安装 IronPDF 包

步骤 3 使用 IronPDF 从 PDF 文件中提取图像

IronPDF 为开发人员提供工具和 API，使他们能够无缝地浏览 PDF 并识别和提取嵌入的图像。无论是用于分析还是集成，IronPDF 都通过 Python 的灵活性简化了提取过程。这使得在处理PDF和基于图像的应用程序时显得尤为重要。只需几行代码，它就可以从PDF文件中提取所有图像，这非常简单。

请参阅以下代码，以使用Python编程语言从PDF中提取图像。

from ironpdf import *

# Open PDF file
pdf = PdfDocument.FromFile("FYP Thesis.pdf") 

# Get all images found in PDF Document
all_images = pdf.ExtractAllImages()

# Save each image to the local disk image
for i, image in enumerate(all_images):
    image.SaveAs(f"output_image_{i}.png")

py

PYTHON

此代码首先导入IronPDF库，然后仅使用PdfDocument.FromFile方法结合文件路径从本地加载PDF文件。然后它将访问 PDF 的每一页以将图像字节提取为 Image 对象。这些来自 PDF 页面中的图像对象随后使用SaveAs方法保存。在上述代码中，用户根据图像索引和图像扩展名（PNG）分配一个动态图像名称。

比替代使用如PyMuPDF和Pillow库更简单，这些库使用import fitz通过ExtractImage()提取图像，并使用from PIL import Image将字节转换为PIL图像实例以保存图像文件到磁盘。 IronPDF 通过仅需几行代码即可实现此功能。

步骤 4 将图像从 PDF 文件中保存下来。

图像从 PDF 文件的所有页面中提取并保存为 PNG 格式。您还可以通过调整文件扩展名以匹配所需的图像文件格式，灵活地修改输出格式来保存可用的图像对象。

如何在 Python 中从 PDF 提取图像，图 4：从示例 PDF 文件中提取的图像

从示例PDF文件中提取的图像

结论

Python 与强大的 IronPDF 相结合，为从 PDF 文件中提取图像的任务提供了一种多功能且高效的解决方案。利用 Python 的灵活性和 IronPDF 的功能，开发人员可以无缝地浏览 PDF 文档，定位其中的图像字节，并以所需的图像扩展名保存这些图像。该过程包括从 PDF 中获取图像，生成的图像列表可以根据需要进一步处理和操作。通过掌握使用Python从PDF中获取图像的艺术，开发人员可以提升他们的工作流程，实现文档管理自动化，并探索广泛的基于图像的应用程序，使其成为数字时代的一项宝贵技能。

有关从PDF文件中获取图片的更多功能，请访问以下示例。您可以探索其他操作，例如将 PDF 文件内容转换为图像的选项，完整教程可在这篇Python 演示文章中找到。

查克尼特·宾

立即与工程团队聊天

软件工程师

Chaknith 负责 IronXL 和 IronBarcode 的工作。他在 C# 和 .NET 方面拥有深厚的专业知识，帮助改进软件并支持客户。他从用户互动中获得的洞察力，有助于提升产品、文档和整体体验。

< 前一页
如何在Python中将PNG转换为PDF文件

下一步 >
如何在Python中从PDF提取数据