UTILISATION D'IRONPDF POUR PYTHON

Comment extraire des images d'un PDF en Python

Publié novembre 14, 2023
Partager:

À l'ère numérique, les PDF (Format de document portable) sont devenus un format omniprésent pour le partage et la distribution de documents sur différentes plateformes. Cependant, le processus d'extraction d'images à partir de PDF est une tâche courante dans de nombreuses applications, de l'analyse de contenu et de l'extraction de données au traitement et à l'archivage d'images. Python, étant un langage de programmation polyvalent et populaire, offre une gamme de bibliothèques et d'outils puissants qui simplifient le processus d'acquisition d'images à partir de documents PDF.

Dans cet article, nous allons plonger dans le monde des solutions basées sur Python pour extraire des images des PDF, en explorant différentes méthodes, techniques et bibliothèques qui donnent aux développeurs les moyens de naviguer et d'extraire sans effort des images de ces documents polyvalents. Que vous soyez un scientifique des données, un développeur ou que vous traitiez simplement du contenu PDF, l'exploitation des capacités de Python pour extraire des images de fichiers PDF améliorera sans aucun doute votre flux de travail et ouvrira une multitude de possibilités pour les applications basées sur l'image.

Dans cet article, nous allons utiliser IronPDF for Python pour extraire des images d'un fichier PDF à l'aide de code Python.

IronPDF for Python

IronPDF pour Python est une bibliothèque de pointe et puissante qui apporte une nouvelle dimension à la manipulation des documents PDF en Python. En tant que solution complète pour les tâches PDF, IronPDF permet une intégration transparente des fonctions PDF avancées dans les applications.

IronPDF fournit une large gamme d'outils et d'API pour des tâches telles que la création de PDF à partir de zéro, la conversion de HTML en PDF de haute qualité et la gestion de pages PDF par des actions telles que la fusion, le fractionnement et l'édition. Ces outils sont conviviaux et efficaces. Grâce à son interface conviviale et à sa documentation complète, IronPDF ouvre de nouvelles possibilités aux développeurs.

Qu'il s'agisse de créer des rapports et des factures professionnels, d'automatiser des flux de travail ou de gérer des documents, IronPDF constitue un atout précieux dans le domaine de la gestion et de l'automatisation des documents, ce qui en fait un outil essentiel pour tout développeur cherchant à tirer parti de la puissance des PDF dans les applications Python.

Comment extraire des images d'un PDF à l'aide d'IronPDF pour Python

  1. Installez la bibliothèque IronPDF pour extraire des images de PDF en Python.
  2. Écrire la méthode PdfDocument.FromFile pour charger un fichier PDF en utilisant le chemin d'accès du disque local.
  3. Appliquez la méthode ExtractAllImages pour extraire les images des fichiers PDF.
  4. Utilisez une boucle pour parcourir toutes les images extraites du PDF.
  5. Enregistrez les images extraites du fichier PDF avec l'extension d'image requise.

Conditions préalables

Avant de plonger dans le monde de l'obtention d'images à partir de PDF à l'aide de Python, assurons-nous de disposer des prérequis nécessaires :

  1. Installation de Python : Assurez-vous d'avoir un Python installé sur votre système. Le processus d'obtention d'images à partir de PDF nécessitera Python 3.0 ou des versions plus récentes. Assurez-vous que vous disposez d'une installation Python compatible.
  2. Bibliothèque IronPDF: Pour utiliser les puissantes fonctionnalités de IronPDFvous devrez l'installer à l'aide de pip, le gestionnaire de paquets Python. Il suffit d'ouvrir votre interface de ligne de commande et d'exécuter la commande suivante :
    :ProductInstall
  1. Environnement de développement intégré (L'IDE): Bien que non obligatoire, l'utilisation d'un IDE peut grandement améliorer votre expérience de développement. Les IDE offrent des fonctionnalités telles que la complétion de code, le débogage et un flux de travail plus rationalisé. PyCharm est un IDE très populaire pour le développement de Python. Vous pouvez télécharger et installer PyCharm sur le site Web de JetBrains à l'adresse https://www.jetbrains.com/pycharm/.

    Une fois ces prérequis mis en place, vous pouvez explorer pas à pas le monde passionnant de la récupération d'images à partir de PDF à l'aide de Python et d'IronPDF.

Étape 1 : Création d'un nouveau projet Python

Voici les étapes à suivre pour créer un nouveau projet Python dans PyCharm.

  1. Pour lancer un nouveau projet Python dans PyCharm, ouvrez l'application PyCharm et accédez au menu supérieur.
  2. Cliquez sur Fichier et sélectionnez Nouveau projet dans le menu déroulant.

    Comment extraire des images d'un PDF en Python : Figure 1

  3. Après avoir cliqué sur Nouveau projet, une nouvelle fenêtre intitulée Créer un projet apparaît.
  4. Dans cette fenêtre, entrez le nom de votre projet dans le champ Localisation en haut. Choisissez l'environnement ; si vous utilisez un environnement virtuel, sélectionnez-le parmi les options proposées.

    Comment extraire des images d'un PDF en Python : Figure 2

  5. Une fois l'environnement sélectionné, cliquez sur le bouton Créer pour créer votre projet Python.

    Votre projet Python est désormais créé et prêt à être utilisé pour diverses tâches, telles que l'extraction d'images.

Étape 2 : Installation d'IronPDF

Pour installer IronPDF, il suffit d'ouvrir le terminal ou une invite de commande séparée et de saisir la commande pip install ironpdf, puis d'appuyer sur la touche Enter. Le terminal affiche la sortie suivante.

Comment extraire des images d'un PDF en Python : Figure 3

Étape 3 Extraction d'images de fichiers PDF à l'aide d'IronPDF

IronPDF dote les développeurs d'outils et d'API permettant de naviguer dans les PDF et d'identifier et d'extraire les images intégrées de manière transparente. Que ce soit pour l'analyse ou l'intégration, IronPDF rationalise l'extraction en utilisant la flexibilité de Python. Cela le rend essentiel pour travailler sur les PDF et les applications basées sur l'image. Il peut extraire toutes les images d'un fichier PDF, ce qui est remarquablement simple avec seulement quelques lignes de code.

Voir le code suivant pour extraire des images d'un PDF à l'aide du langage de programmation Python.

from ironpdf import *
# Open PDF file
pdf = PdfDocument.FromFile("FYP Thesis.pdf") 
# Get all images found in PDF Document
all_images = pdf.ExtractAllImages()
# Save each image to the local disk image
for i, image in enumerate(all_images):
    image.SaveAs(f"output_image_{i}.png")
PYTHON

Ce code importe d'abord la bibliothèque IronPDF, puis charge le fichier PDF depuis l'espace local en utilisant uniquement le chemin d'accès au fichier à l'aide de la méthode PdfDocument.FromFile. Il accède ensuite à chaque page d'un PDF pour en extraire les octets d'image sous forme d'objets Image. Ces objets images des pages PDF sont ensuite enregistrés à l'aide de la méthode SaveAs. Dans le code ci-dessus, l'utilisateur attribue un nom d'image dynamique basé sur les indices d'image et l'extension de l'image au format PNG.

Plus simple que d'utiliser alternativement des bibliothèques Python comme PyMuPDF et Oreiller qui utilisent import fitz pour extraire des images en utilisant extractImage()` et utiliser from PIL import Image pour convertir des octets en une instance d'image PIL afin d'enregistrer des fichiers image sur le disque. IronPDF y parvient en quelques lignes de code.

Étape 4 Enregistrer les images du fichier PDF

Les images sont extraites de toutes les pages d'un fichier PDF et enregistrées au format PNG. Vous avez également la possibilité de modifier le format de sortie pour enregistrer les objets image disponibles en ajustant l'extension de fichier pour qu'elle corresponde aux formats de fichiers image souhaités.

Comment extraire des images d'un PDF en Python : Figure 4

Conclusion

Python, ainsi que le puissant logiciel IronPDFoffre une solution polyvalente et efficace pour la récupération d'images à partir de fichiers PDF. Grâce à la flexibilité de Python et aux capacités d'IronPDF, les développeurs peuvent naviguer en toute transparence dans les documents PDF, y localiser les octets d'image et enregistrer ces images avec l'extension souhaitée. Le processus consiste à obtenir des images à partir d'un PDF, et la liste d'images résultante peut être traitée et manipulée selon les besoins. En maîtrisant l'art d'acquérir des images à partir de PDF à l'aide de Python, les développeurs peuvent améliorer leurs flux de travail, automatiser la gestion des documents et explorer un large éventail d'applications basées sur l'image, ce qui en fait une compétence précieuse à l'ère du numérique.

Pour plus d'informations sur les images à partir de fichiers PDF, consultez le site suivant lien. Vous pouvez explorer d'autres opérations comme les options pour convertir le contenu des fichiers PDF en images, le tutoriel complet est disponible ici.

< PRÉCÉDENT
Comment convertir un fichier PNG en fichier PDF en Python
SUIVANT >
Comment extraire des données d'un PDF en Python

Prêt à commencer ? Version : 2024.9 vient de paraître

Installation gratuite de pip Voir les licences > ;