UTILISATION D'IRONPDF POUR PYTHON

Comment analyser un fichier PDF en Python

Mise à jour septembre 28, 2024
Partager:

1.0 Introduction

Les bibliothèques modernes ont simplifié la création de PDF. Lors du choix d'une bibliothèque pour des projets PDF, tenez compte des capacités de création, de lecture et de conversion pour une intégration et une performance optimales. Python propose des outils comme IronPDF qui peuvent efficacement analyser les PDF existants.

2.0 IronPDF

Python est un langage de programmation qui permet aux développeurs de construire rapidement et facilement des interfaces graphiques. Il offre un plus grand dynamisme aux programmeurs par rapport à d'autres langages. Par conséquent, l'intégration de la bibliothèque IronPDF pour Python est un processus simple.

Pour créer rapidement et en toute sécurité une interface graphique entièrement fonctionnelle, les développeurs peuvent utiliser plusieurs outils préinstallés, notamment PyQt, wxWidgets, Kivy et bien d'autres paquets et bibliothèques. Il convient de noter qu'IronPDF n'est pas une bibliothèque PDF purement Python ; au lieu de cela, il permet l'inclusion de diverses fonctionnalités d'autres frameworks comme .NET Core.

IronPDF simplifie la conception et le développement web en Python, notamment en raison de la popularité des paradigmes de développement web en Python tels que Django, Flask et Python. Des sites web et des services en ligne de renom, tels que Reddit, Mozilla et Spotify, ont utilisé ces cadres. Pour en savoir plus sur IronPDF for Python, consultez la pageSite web d'IronPDF for Python.

2.1 Caractéristiques d'IronPDF

  • IronPDF est capable degénération de fichiers PDFà partir de diverses sources, y compris HTML, HTML5, ASPX et Razor/MVC View. Il permet de créer des PDF à partir de pages HTML et d'images.
  • La boîte à outils IronPDF propose une gamme d'outils pour des tâches telles que la création de PDFs interactifs,remplir et soumettre des formulaires interactifs, diviser etcombinerFichiers PDF,extraire du texte et des imagesà partir de fichiers PDF, recherchez certains mots dans un fichier PDF,rasteriser les pages PDF en images, convertir PDF en HTML.
  • Grâce à la prise en charge des agents utilisateurs, des proxies, des cookies, des en-têtes HTTP et des variables de forme, IronPDF permet la validation des formulaires de connexion HTML.
  • Accès aux documents protégésdans IronPDF est accordé par l'utilisation de noms d'utilisateur et de mots de passe.
  • IronPDF aide à générer des fichiers PDF etimprimeravec seulement quelques lignes de code à partir de diverses sources telles que des chaînes, des flux, des URL, etc.

3.0 Configuration de Python

3.1 Configuration de l'environnement

Assurez-vous que Python est installé sur votre PC. Visitez le sitesite officiel de Python pour télécharger et installer la dernière version de Python adaptée à votre système d'exploitation. Une fois Python installé, mettez en place un environnement virtuel pour isoler les dépendances de votre projet. Le module "venv" permet de créer et de gérer des environnements virtuels, offrant ainsi à votre projet de conversion un espace de travail propre et indépendant.

3.2 Nouveau projet dans PyCharm

Nous allons utiliser PyCharm, un IDE pour écrire du code Python, pour cette démonstration.

Cliquez sur "Nouveau projet" après avoir lancé l'IDE PyCharm.

Comment analyser un fichier PDF en Python, Figure 1 : L'écran d'accueil de PyCharm

L'écran d'accueil de PyCharm

Lorsque vous sélectionnez "Nouveau projet", une nouvelle fenêtre apparaîtra, vous permettant de spécifier l'emplacement du projet et son environnement. Cette nouvelle fenêtre est visible dans la capture d'écran ci-dessous.

Comment analyser un fichier PDF en Python, Figure 2 : L'écran de nouveau projet dans PyCharm

L'écran du nouveau projet dans PyCharm

Cliquez sur le bouton Créer pour démarrer un nouveau projet, après avoir défini l'emplacement du projet et le chemin de l'environnement. Cela ouvrira une nouvelle fenêtre dans laquelle le programme pourra être développé. Ce tutoriel recommande Python 3.9.

Comment analyser un fichier PDF en Python, Figure 3 : Un fichier principal ouvert dans PyCharm

Un fichier principal ouvert dans PyCharm

3.3 Bibliothèque IronPDF requise

IronPDF, une bibliothèque Python, repose principalement sur .NET 6.0. Par conséquent, pour utiliser IronPDF for Python, votre PC doit avoir le runtime .NET 6.0 installé. Avant que les utilisateurs de Linux et Mac puissent utiliser ce module Python, .NET devra peut-être être installé. Vous pouvez obtenir l'environnement d'exécution requis à partir de l'adresse suivantesite web .NET.

3.4 Configuration de la bibliothèque IronPDF

Le paquetage "IronPDF" doit être installé pour créer, éditer et ouvrir des fichiers avec l'extension ".pdf". Pour installer le paquet dans PyCharm, ouvrez une fenêtre de terminal et tapez la commande suivante :

pip install ironpdf

La capture d'écran ci-dessous montre la configuration du paquet 'IronPDF'.

Comment analyser un fichier PDF en Python, Figure 4 : Un terminal montrant l'installation de IronPDF à l'aide de pip

Un terminal affichant l'installation de IronPDF en utilisant pip

4.0 Analyser les PDF avec IronPDF

Avec l'aide des bibliothèques IronPDF, il est possible d'extraire du texte à partir de fichiers PDF. IronPDF propose plusieurs techniques d'extraction de texte. La première approche consiste à récupérer tout le contenu de la page sous la forme d'une chaîne unique. La deuxième approche consiste à lire le contenu page par page, en commençant par la première page. L'extrait de code suivant illustre un modèle d'inspection des fichiers PDF actuels à l'aide d'IronPDF.

Il existe deux méthodes pour extraire des données d'un PDF :

  1. Extraction du PDF par page.

  2. Extraction de l'ensemble du PDF sous forme de texte.

    Vous trouverez ci-dessous le fichier PDF que nous allons utiliser pour cet article. Il comporte deux pages.

    Comment analyser un fichier PDF en Python, Figure 5 : Un PDF avec le numéro de page en haut de chaque page

    Un PDF avec le numéro de page en haut de chaque page

4.0.1 EXTRACTION DE TEXTE PAR PAGES

L'exemple de code ci-dessous montre comment utiliser le numéro de page pour extraire des données d'un fichier PDF.

from ironpdf import *

pdfDocument = PdfDocument.FromFile("F:\\PDF\\1.pdf")
AllText = pdfDocument.ExtractTextFromPage(0)
print(AllText)
PYTHON

L'extrait de code démontre l'utilisation de la fonction FromFile pour lire un fichier PDF et créer un objet document PDF. Cet objet permet d'accéder aux textes et images dans le PDF. Pour extraire le texte d'une page particulière, la méthode ExtractTextFromPage peut être utilisée en fournissant le numéro de la page en tant que paramètre. Cette méthode renvoie une chaîne contenant tous les mots de la page spécifiée. Le résultat s'affiche comme suit.

Comment analyser un fichier PDF en Python, Figure 6 : Une capture d'écran du terminal avec le texte en sortie Page 1

Une capture d'écran du terminal avec le texte "Page 1"

Le rectangle qui apparaît en surbrillance dans le résultat est le texte extrait des données du fichier PDF sur la page numéro 1, dont l'index est 0.

4.0,2 EXTRAIT DE TOUTES LES PAGES

La première approche pour obtenir rapidement et facilement tout le contenu du PDF sous forme de chaîne est illustrée dans l'exemple de code suivant.

# creating a PDF file object
pdf = PdfDocument.FromFile('F:\\PDF\\1.pdf')
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON

Le code d'exemple présenté ci-dessus explique comment lire un PDF à partir d'un chemin de fichier existant et le transformer en un objet fichier PDF en utilisant la fonction FromFile. Le texte brut du PDF sera extrait et converti en une chaîne à l'aide de la fonction ExtractAllText de l'objet, et le texte extrait sera imprimé sur le terminal. Le résultat s'affichera comme ci-dessous.

Comment analyser un fichier PDF en Python, Figure 7 : Une capture d'écran du terminal avec un texte de sortie Page 1 et Page 2

Une capture d'écran du terminal avec le texte "Page 1" et "Page 2"

Les rectangles mis en évidence dans le résultat contiennent les données extraites de toutes les pages du fichier PDF.

Nous sommes en mesure de créer des PDF en utilisant C# avec l'aide d'IronPDF. Pour en savoir plus sur IronPDF, visitez la pageSite web d'IronPDF.

5.0 Conclusion

Pour minimiser les risques et assurer la protection des données, la bibliothèque IronPDF prévoit de solides mesures de sécurité. Il est compatible avec tous les navigateurs couramment utilisés et n'est limité à aucun d'entre eux. IronPDF permet aux programmeurs de créer et de lire facilement des fichiers PDF avec seulement quelques lignes de code. Pour répondre aux différents besoins des développeurs, la bibliothèque IronPDF offre une variété d'options de licence, y compris une licence de développement gratuite et des licences de développement supplémentaires qui sont disponibles à l'achat.

Le package $749 Lite est livré avec une licence perpétuelle, une garantie de remboursement de 30 jours, un an d'assistance logicielle et des possibilités de mise à niveau. Au-delà du premier achat, il n'y a pas de frais supplémentaires. Les environnements de production, de préparation et de développement utilisent tous ces licences. IronPDF propose également des licences gratuites avec quelques limitations de temps et de redistribution. Pendant la période d'essai gratuite, les utilisateurs peuvent tester le produit en situation réelle, sans filigrane. Pour plus de détails sur le coût et les licences de la version d'essai d'IronPDF, veuillez consulter la pagePage de licences IronPDF.

< PRÉCÉDENT
Comment diviser des fichiers PDF en Python
SUIVANT >
Comment extraire les données d'une facture à partir d'un fichier PDF en Python ?

Prêt à commencer ? Version : 2024.11.1 vient de paraître

Installation gratuite de pip Voir les licences > ;