UTILISATION D'IRONPDF POUR PYTHON

Comment extraire des images d'un PDF en Python

Chaknith Bin
Chaknith Bin
novembre 14, 2023
Mise à jour septembre 28, 2024
Partager:

Cet article utilisera IronPDF for Python pour extraire des images d'un fichier PDF à l'aide de code Python.

IronPDF for Python

IronPDF for Python est une bibliothèque de pointe et puissante qui apporte une nouvelle dimension à la gestion des documents PDF en Python. En tant que solution complète pour les tâches PDF, IronPDF permet une intégration transparente des fonctions PDF avancées dans les applications.

IronPDF fournit une large gamme d'outils et d'APIs pour des tâches telles que la création de PDF à partir de zéro, la conversion de HTML en PDF de haute qualité, et la gestion des pages PDF à travers des actions comme la fusion, la division et l'édition. Ces outils sont conviviaux et efficaces. Grâce à son interface conviviale et à sa documentation complète, IronPDF ouvre de nouvelles possibilités aux développeurs.

Que ce soit pour créer des rapports et des factures professionnels, automatiser les flux de travail ou gérer des documents, IronPDF constitue un atout précieux dans le domaine de la gestion et de l'automatisation des documents, en faisant un outil essentiel pour tout développeur cherchant à exploiter la puissance des PDF dans les applications Python.

Comment extraire des images d'un PDF à l'aide d'IronPDF pour Python

  1. Installez la bibliothèque IronPDF pour extraire des images de PDF en Python.

  2. Écrivez la méthode PdfDocument.FromFile pour charger un fichier PDF en utilisant le chemin du fichier depuis le disque local.

  3. Appliquez la méthode ExtractAllImages pour extraire des images à partir de fichiers PDF.

  4. Utilisez une boucle pour parcourir toutes les images extraites du PDF.

  5. Enregistrez les images extraites du fichier PDF avec l'extension d'image requise.

Conditions préalables

Avant de plonger dans le monde de l'obtention d'images à partir de PDFs en utilisant Python, installons les prérequis nécessaires :

  1. Installation de Python : Assurez-vous d'avoir un interpréteur Python installé sur votre système. Le processus d'obtention d'images à partir de PDF nécessitera Python 3.0 ou des versions plus récentes. Assurez-vous que vous disposez d'une installation Python compatible.

  2. Bibliothèque IronPDF : Pour utiliser les puissantes capacités d'IronPDF, vous devrez l'installer en utilisant pip, le gestionnaire de paquets Python. Il suffit d'ouvrir votre interface de ligne de commande et d'exécuter la commande suivante :
    :ProductInstall
  1. Environnement de développement intégré (IDE) : Bien que non obligatoire, l'utilisation d'un IDE peut grandement améliorer votre expérience de développement. Les IDE offrent des fonctionnalités telles que la complétion de code, le débogage et un flux de travail plus rationalisé. PyCharm est un IDE très populaire pour le développement de Python. Vous pouvez télécharger et installer PyCharm depuis le site web de JetBrains.

    Une fois ces prérequis en place, vous pouvez explorer le guide étape par étape à travers le monde passionnant de l'extraction d'images de fichiers PDF en utilisant Python et IronPDF.

Étape 1 : Création d'un nouveau projet Python

Voici les étapes à suivre pour créer un nouveau projet Python dans PyCharm.

  1. Pour lancer un nouveau projet Python dans PyCharm, ouvrez l'application PyCharm et accédez au menu supérieur.

  2. Cliquez sur Fichier et sélectionnez Nouveau projet dans le menu déroulant.

    Comment extraire des images d'un PDF en Python, Figure 1 : PyCharm IDE

    PyCharm IDE

  3. Après avoir cliqué sur Nouveau projet, une nouvelle fenêtre avec le titre Créer un projet apparaîtra.

  4. Dans cette fenêtre, entrez le nom de votre projet dans le champ Location en haut. Choisissez l'environnement ; si vous utilisez un environnement virtuel, sélectionnez-le parmi les options proposées.

    Comment extraire des images d'un PDF en Python, Figure 2 : Créer un nouveau projet Python dans PyCharm

    Créer un nouveau projet Python dans PyCharm

  5. Une fois l'environnement sélectionné, cliquez sur le bouton Create pour créer votre projet Python.

    Votre projet Python est désormais créé et prêt à être utilisé pour diverses tâches, telles que l'extraction d'images.

Étape 2 : Installation d'IronPDF

Pour installer IronPDF, ouvrez simplement le terminal ou une invite de commande séparée et entrez la commande pip install ironpdf, puis appuyez sur la touche Entrée. Le terminal affiche la sortie suivante.

Comment extraire des images d'un PDF en Python, Figure 3: Installer le package IronPDF

Installer le package IronPDF

Étape 3 Extraction d'images de fichiers PDF à l'aide d'IronPDF

IronPDF dote les développeurs d'outils et d'API permettant de naviguer dans les PDF et d'identifier et d'extraire les images intégrées de manière transparente. Que ce soit pour l'analyse ou l'intégration, IronPDF rationalise l'extraction en utilisant la flexibilité de Python. Cela le rend essentiel pour travailler sur des applications basées sur des PDF et des images. Il peut extraire toutes les images d'un fichier PDF, ce qui est remarquablement simple avec seulement quelques lignes de code.

Voir le code suivant pour extraire des images d'un PDF en utilisant le langage de programmation Python.

from ironpdf import *

# Open PDF file
pdf = PdfDocument.FromFile("FYP Thesis.pdf") 

# Get all images found in PDF Document
all_images = pdf.ExtractAllImages()

# Save each image to the local disk image
for i, image in enumerate(all_images):
    image.SaveAs(f"output_image_{i}.png")
PYTHON

Ce code importe d'abord la bibliothèque IronPDF, puis charge le fichier PDF à partir de l'espace local en utilisant uniquement le chemin du fichier avec la méthode PdfDocument.FromFile. Il accède ensuite à chaque page d'un PDF pour en extraire les octets d'image sous forme d'objets Image. Ces objets image provenant des pages PDF sont ensuite enregistrés à l'aide de la méthode SaveAs. Dans le code ci-dessus, l'utilisateur attribue un nom d'image dynamique basé sur les indices d'image et l'extension de l'image au format PNG.

Plus simple que d'utiliser des bibliothèques Python alternatives comme les bibliothèques PyMuPDF et Pillow, qui utilisent import fitz pour extraire des images en utilisant ExtractImage() et utilisent from PIL import Image pour convertir les octets en une instance d'image PIL afin de sauvegarder les fichiers image sur le disque. IronPDF y parvient en quelques lignes de code.

Étape 4 Enregistrer les images du fichier PDF

Les images sont extraites de toutes les pages d'un fichier PDF et enregistrées au format PNG. Vous avez également la possibilité de modifier le format de sortie pour enregistrer les objets image disponibles en ajustant l'extension de fichier pour qu'elle corresponde aux formats de fichiers image souhaités.

Comment extraire des images d'un PDF en Python, Figure 4 : Les images extraites du fichier PDF d'exemple

Les images extraites du fichier PDF d'exemple

Conclusion

Python, associé au puissant IronPDF, offre une solution polyvalente et efficace pour la tâche de récupération des images à partir des fichiers PDF. Grâce à la flexibilité de Python et aux capacités d'IronPDF, les développeurs peuvent naviguer en toute transparence dans les documents PDF, y localiser les octets d'image et enregistrer ces images avec l'extension souhaitée. Le processus consiste à obtenir des images à partir d'un PDF, et la liste d'images résultante peut être traitée et manipulée selon les besoins. En maîtrisant l'art d'acquérir des images à partir de PDF à l'aide de Python, les développeurs peuvent améliorer leurs flux de travail, automatiser la gestion des documents et explorer un large éventail d'applications basées sur l'image, ce qui en fait une compétence précieuse à l'ère du numérique.

Pour plus de fonctionnalités sur les images provenant de fichiers PDF, visitez l'exemple suivant. Vous pouvez explorer d'autres opérations, telles que les options pour convertir le contenu de fichiers PDF en images. Le tutoriel complet est disponible dans cet article how-to Python.

Chaknith Bin
Ingénieur logiciel
Chaknith travaille sur IronXL et IronBarcode. Il possède une expertise approfondie en C# et .NET, aidant à améliorer le logiciel et à soutenir les clients. Ses idées issues des interactions avec les utilisateurs contribuent à de meilleurs produits, une documentation améliorée et une expérience globale enrichie.
< PRÉCÉDENT
Comment convertir un fichier PNG en fichier PDF en Python
SUIVANT >
Comment extraire des données d'un PDF en Python