Cet article utilisera IronPDF for Python pour extraire des images d'un fichier PDF à l'aide de code Python.
IronPDF for Python
IronPDF for Python est une bibliothèque de pointe et puissante qui apporte une nouvelle dimension à la gestion des documents PDF en Python. En tant que solution complète pour les tâches PDF, IronPDF permet une intégration transparente des fonctions PDF avancées dans les applications.
IronPDF fournit une large gamme d'outils et d'APIs pour des tâches telles que la création de PDF à partir de zéro, la conversion de HTML en PDF de haute qualité, et la gestion des pages PDF à travers des actions comme la fusion, la division et l'édition. Ces outils sont conviviaux et efficaces. Grâce à son interface conviviale et à sa documentation complète, IronPDF ouvre de nouvelles possibilités aux développeurs.
Que ce soit pour créer des rapports et des factures professionnels, automatiser les flux de travail ou gérer des documents, IronPDF constitue un atout précieux dans le domaine de la gestion et de l'automatisation des documents, en faisant un outil essentiel pour tout développeur cherchant à exploiter la puissance des PDF dans les applications Python.
Installez la bibliothèque IronPDF pour extraire des images de PDF en Python.
Écrivez la méthode PdfDocument.FromFile
pour charger un fichier PDF en utilisant le chemin du fichier depuis le disque local.
Appliquez la méthode ExtractAllImages
pour extraire des images à partir de fichiers PDF.
Utilisez une boucle pour parcourir toutes les images extraites du PDF.
- Enregistrez les images extraites du fichier PDF avec l'extension d'image requise.
Conditions préalables
Avant de plonger dans le monde de l'obtention d'images à partir de PDFs en utilisant Python, installons les prérequis nécessaires :
Installation de Python : Assurez-vous d'avoir un interpréteur Python installé sur votre système. Le processus d'obtention d'images à partir de PDF nécessitera Python 3.0 ou des versions plus récentes. Assurez-vous que vous disposez d'une installation Python compatible.
- Bibliothèque IronPDF : Pour utiliser les puissantes capacités d'IronPDF, vous devrez l'installer en utilisant
pip
, le gestionnaire de paquets Python. Il suffit d'ouvrir votre interface de ligne de commande et d'exécuter la commande suivante :
:ProductInstall
Environnement de développement intégré (IDE) : Bien que non obligatoire, l'utilisation d'un IDE peut grandement améliorer votre expérience de développement. Les IDE offrent des fonctionnalités telles que la complétion de code, le débogage et un flux de travail plus rationalisé. PyCharm est un IDE très populaire pour le développement de Python. Vous pouvez télécharger et installer PyCharm depuis le site web de JetBrains.
Une fois ces prérequis en place, vous pouvez explorer le guide étape par étape à travers le monde passionnant de l'extraction d'images de fichiers PDF en utilisant Python et IronPDF.
Étape 1 : Création d'un nouveau projet Python
Voici les étapes à suivre pour créer un nouveau projet Python dans PyCharm.
Pour lancer un nouveau projet Python dans PyCharm, ouvrez l'application PyCharm et accédez au menu supérieur.
Cliquez sur Fichier et sélectionnez Nouveau projet dans le menu déroulant.

PyCharm IDE
Après avoir cliqué sur Nouveau projet, une nouvelle fenêtre avec le titre Créer un projet apparaîtra.
Dans cette fenêtre, entrez le nom de votre projet dans le champ Location en haut. Choisissez l'environnement ; si vous utilisez un environnement virtuel, sélectionnez-le parmi les options proposées.

Créer un nouveau projet Python dans PyCharm
Une fois l'environnement sélectionné, cliquez sur le bouton Create pour créer votre projet Python.
Votre projet Python est désormais créé et prêt à être utilisé pour diverses tâches, telles que l'extraction d'images.
Étape 2 : Installation d'IronPDF
Pour installer IronPDF, ouvrez simplement le terminal ou une invite de commande séparée et entrez la commande pip install ironpdf, puis appuyez sur la touche Entrée. Le terminal affiche la sortie suivante.

Installer le package IronPDF
IronPDF dote les développeurs d'outils et d'API permettant de naviguer dans les PDF et d'identifier et d'extraire les images intégrées de manière transparente. Que ce soit pour l'analyse ou l'intégration, IronPDF rationalise l'extraction en utilisant la flexibilité de Python. Cela le rend essentiel pour travailler sur des applications basées sur des PDF et des images. Il peut extraire toutes les images d'un fichier PDF, ce qui est remarquablement simple avec seulement quelques lignes de code.
Voir le code suivant pour extraire des images d'un PDF en utilisant le langage de programmation Python.
from ironpdf import *
# Open PDF file
pdf = PdfDocument.FromFile("FYP Thesis.pdf")
# Get all images found in PDF Document
all_images = pdf.ExtractAllImages()
# Save each image to the local disk image
for i, image in enumerate(all_images):
image.SaveAs(f"output_image_{i}.png")
Ce code importe d'abord la bibliothèque IronPDF, puis charge le fichier PDF à partir de l'espace local en utilisant uniquement le chemin du fichier avec la méthode PdfDocument.FromFile
. Il accède ensuite à chaque page d'un PDF pour en extraire les octets d'image sous forme d'objets Image. Ces objets image provenant des pages PDF sont ensuite enregistrés à l'aide de la méthode SaveAs
. Dans le code ci-dessus, l'utilisateur attribue un nom d'image dynamique basé sur les indices d'image et l'extension de l'image au format PNG.
Plus simple que d'utiliser des bibliothèques Python alternatives comme les bibliothèques PyMuPDF et Pillow, qui utilisent import fitz
pour extraire des images en utilisant ExtractImage()
et utilisent from PIL import Image
pour convertir les octets en une instance d'image PIL afin de sauvegarder les fichiers image sur le disque. IronPDF y parvient en quelques lignes de code.
Étape 4 Enregistrer les images du fichier PDF
Les images sont extraites de toutes les pages d'un fichier PDF et enregistrées au format PNG. Vous avez également la possibilité de modifier le format de sortie pour enregistrer les objets image disponibles en ajustant l'extension de fichier pour qu'elle corresponde aux formats de fichiers image souhaités.

Les images extraites du fichier PDF d'exemple
Conclusion
Python, associé au puissant IronPDF, offre une solution polyvalente et efficace pour la tâche de récupération des images à partir des fichiers PDF. Grâce à la flexibilité de Python et aux capacités d'IronPDF, les développeurs peuvent naviguer en toute transparence dans les documents PDF, y localiser les octets d'image et enregistrer ces images avec l'extension souhaitée. Le processus consiste à obtenir des images à partir d'un PDF, et la liste d'images résultante peut être traitée et manipulée selon les besoins. En maîtrisant l'art d'acquérir des images à partir de PDF à l'aide de Python, les développeurs peuvent améliorer leurs flux de travail, automatiser la gestion des documents et explorer un large éventail d'applications basées sur l'image, ce qui en fait une compétence précieuse à l'ère du numérique.
Pour plus de fonctionnalités sur les images provenant de fichiers PDF, visitez l'exemple suivant. Vous pouvez explorer d'autres opérations, telles que les options pour convertir le contenu de fichiers PDF en images. Le tutoriel complet est disponible dans cet article how-to Python.