UTILISATION D'IRONPDF POUR PYTHON

Comment extraire des images d'un PDF en Python

Mise à jour septembre 28, 2024
Partager:

Cet article utilisera IronPDF for Python pour extraire des images d'un fichier PDF à l'aide de code Python.

IronPDF for Python

IronPDF pour Python est une bibliothèque de pointe et puissante qui apporte une nouvelle dimension à la manipulation des documents PDF en Python. En tant que solution complète pour les tâches PDF, IronPDF permet une intégration transparente des fonctions PDF avancées dans les applications.

IronPDF propose une large gamme d'outils et d'API pour des tâches telles quecréation de PDFsdepuis le début, convertissantTransformation du HTML en PDF de haute qualité, et gérer les pages PDF grâce à des actions telles quefusion, fractionnement, et édition. Ces outils sont conviviaux et efficaces. Grâce à son interface conviviale et à sa documentation complète, IronPDF ouvre de nouvelles possibilités aux développeurs.

Que ce soit pour créer des rapports et des factures professionnels, automatiser les flux de travail ou gérer des documents, IronPDF constitue un atout précieux dans le domaine de la gestion et de l'automatisation des documents, en faisant un outil essentiel pour tout développeur cherchant à exploiter la puissance des PDF dans les applications Python.

Comment extraire des images d'un PDF à l'aide d'IronPDF pour Python

  1. Installez la bibliothèque IronPDF pour extraire des images de PDF en Python.

  2. Écrire la méthode PdfDocument.FromFile pour charger un fichier PDF en utilisant le chemin d'accès du disque local.

  3. Appliquez la méthode ExtractAllImages pour extraire les images des fichiers PDF.

  4. Utilisez une boucle pour parcourir toutes les images extraites du PDF.

  5. Enregistrez les images extraites du fichier PDF avec l'extension d'image requise.

Conditions préalables

Avant de plonger dans le monde de l'obtention d'images à partir de PDFs en utilisant Python, installons les prérequis nécessaires :

  1. Installation de Python : Assurez-vous d'avoir unPython installé sur votre système. Le processus d'obtention d'images à partir de PDF nécessitera Python 3.0 ou des versions plus récentes. Assurez-vous que vous disposez d'une installation Python compatible.

  2. Bibliothèque IronPDF: Pour utiliser les puissantes fonctionnalités deIronPDF, vous devrez l'installer en utilisant pip, le gestionnaire de paquets Python. Il suffit d'ouvrir votre interface de ligne de commande et d'exécuter la commande suivante :
    :ProductInstall
  1. Environnement de développement intégré(L'IDE): Bien que non obligatoire, l'utilisation d'un IDE peut grandement améliorer votre expérience de développement. Les IDE offrent des fonctionnalités telles que la complétion de code, le débogage et un flux de travail plus rationalisé. PyCharm est un IDE très populaire pour le développement de Python. Vous pouvez télécharger et installer PyCharm depuis leSite web JetBrains.

    Une fois ces prérequis en place, vous pouvez explorer le guide étape par étape à travers le monde passionnant de l'extraction d'images de fichiers PDF en utilisant Python et IronPDF.

Étape 1 : Création d'un nouveau projet Python

Voici les étapes à suivre pour créer un nouveau projet Python dans PyCharm.

  1. Pour lancer un nouveau projet Python dans PyCharm, ouvrez l'application PyCharm et accédez au menu supérieur.

  2. Cliquez sur Fichier et sélectionnez Nouveau projet dans le menu déroulant.

    Comment extraire des images d'un PDF en Python, Figure 1 : PyCharm IDE

    PyCharm IDE

  3. Après avoir cliqué sur Nouveau projet, une nouvelle fenêtre intitulée Créer un projet apparaît.

  4. Dans cette fenêtre, entrez le nom de votre projet dans le champ Localisation en haut. Choisissez l'environnement ; si vous utilisez un environnement virtuel, sélectionnez-le parmi les options proposées.

    Comment extraire des images d'un PDF en Python, Figure 2 : Créer un nouveau projet Python dans PyCharm

    Créer un nouveau projet Python dans PyCharm

  5. Une fois l'environnement sélectionné, cliquez sur le bouton Créer pour créer votre projet Python.

    Votre projet Python est désormais créé et prêt à être utilisé pour diverses tâches, telles que l'extraction d'images.

Étape 2 : Installation d'IronPDF

Pour installer IronPDF, il suffit d'ouvrir le terminal ou une invite de commande séparée et de saisir la commande pip install ironpdf, puis d'appuyer sur la touche Enter. Le terminal affiche la sortie suivante.

Comment extraire des images d'un PDF en Python, Figure 3 : Installer le package IronPDF

Installer le package IronPDF

Étape 3 Extraction d'images de fichiers PDF à l'aide d'IronPDF

IronPDF dote les développeurs d'outils et d'API permettant de naviguer dans les PDF et d'identifier et d'extraire les images intégrées de manière transparente. Que ce soit pour l'analyse ou l'intégration, IronPDF rationalise l'extraction en utilisant la flexibilité de Python. Cela le rend essentiel pour travailler sur des applications basées sur des PDF et des images. Il peut extraire toutes les images d'un fichier PDF, ce qui est remarquablement simple avec seulement quelques lignes de code.

Voir le code suivant pour extraire des images d'un PDF en utilisant le langage de programmation Python.

from ironpdf import *

# Open PDF file
pdf = PdfDocument.FromFile("FYP Thesis.pdf") 

# Get all images found in PDF Document
all_images = pdf.ExtractAllImages()

# Save each image to the local disk image
for i, image in enumerate(all_images):
    image.SaveAs(f"output_image_{i}.png")
PYTHON

Ce code importe d'abord la bibliothèque IronPDF, puis charge le fichier PDF depuis l'espace local en utilisant uniquement le chemin d'accès au fichier à l'aide de la méthode PdfDocument.FromFile. Il accède ensuite à chaque page d'un PDF pour en extraire les octets d'image sous forme d'objets Image. Ces objets images des pages PDF sont ensuite enregistrés à l'aide de la méthode SaveAs. Dans le code ci-dessus, l'utilisateur attribue un nom d'image dynamique basé sur les indices d'image et l'extension de l'image au format PNG.

Plus simple que d'utiliser alternativement des bibliothèques Python commePyMuPDF etOreillerbibliothèques, qui utilisent import fitz pour extraire des images en utilisant ExtractImage()` et utiliser from PIL import Image pour convertir des octets en une instance d'image PIL afin d'enregistrer des fichiers image sur le disque. IronPDF y parvient en quelques lignes de code.

Étape 4 Enregistrer les images du fichier PDF

Les images sont extraites de toutes les pages d'un fichier PDF et enregistrées au format PNG. Vous avez également la possibilité de modifier le format de sortie pour enregistrer les objets image disponibles en ajustant l'extension de fichier pour qu'elle corresponde aux formats de fichiers image souhaités.

Comment extraire des images d'un PDF en Python, Figure 4 : Les images extraites du fichier PDF d'exemple

Les images extraites du fichier PDF d'exemple

Conclusion

Python, ainsi que le puissant logicielIronPDFoffre une solution polyvalente et efficace pour la récupération d'images à partir de fichiers PDF. Grâce à la flexibilité de Python et aux capacités d'IronPDF, les développeurs peuvent naviguer en toute transparence dans les documents PDF, y localiser les octets d'image et enregistrer ces images avec l'extension souhaitée. Le processus consiste à obtenir des images à partir d'un PDF, et la liste d'images résultante peut être traitée et manipulée selon les besoins. En maîtrisant l'art d'acquérir des images à partir de PDF à l'aide de Python, les développeurs peuvent améliorer leurs flux de travail, automatiser la gestion des documents et explorer un large éventail d'applications basées sur l'image, ce qui en fait une compétence précieuse à l'ère du numérique.

Pour plus d'informations sur les images à partir de fichiers PDF, consultez le site suivantexemple. Vous pouvez explorer d'autres opérations telles que les options pour convertir le contenu des fichiers PDF en images, le tutoriel complet est disponible dans ce document.article how-to Python.

< PRÉCÉDENT
Comment convertir un fichier PNG en fichier PDF en Python
SUIVANT >
Comment extraire des données d'un PDF en Python

Prêt à commencer ? Version : 2024.11.1 vient de paraître

Installation gratuite de pip Voir les licences > ;