UTILISATION D'IRONPDF POUR PYTHON

Comment extraire un texte spécifique d'un PDF en Python

Cet article montrera comment extraire des éléments de texte à partir de documents PDF à l'aide de la bibliothèque IronPDF for Python.

IronPDF

Python est un langage de programmation qui permet aux développeurs de créer simplement et rapidement des interfaces graphiques. Par rapport à d'autres langages, Python est également beaucoup plus dynamique pour les programmeurs. Pour cette raison, l'ajout de la bibliothèque IronPDF à Python est un processus simple. Une multitude d'outils préinstallés, dont PyQt, wxWidgets, Kivy et de nombreux autres paquets et bibliothèques Python, peuvent être utilisés pour construire rapidement et en toute sécurité une interface graphique complète. IronPDF incorpore Python et permet également l'intégration de fonctionnalités provenant d'autres frameworks, tels que .NET Core.

IronPDF facilite le développement du web. La raison principale en est l'adoption généralisée des paradigmes de développement web Python comme Django, Flask et Python. Reddit, Mozilla et Spotify ne sont que quelques-uns des sites web et des services en ligne qui ont utilisé ces cadres.

Caractéristiques d'IronPDF

  • Avec IronPDF, les fichiers PDF peuvent être créés à partir d'une variété de sources, y compris HTML, HTML5, ASPX et Razor/MVC View. Il offre la possibilité de convertir des pages HTML et des images en fichiers PDF.
  • Créer des PDF interactifs, remplir et soumettre des formulaires interactifs, diviser et combiner des fichiers PDF, extraire du texte et des images, rechercher du texte dans des fichiers PDF, rasteriser des PDF en images, changer les tailles de police, traitement du langage naturel utilisant ChatGPT, et convertir correctement les pages PDF ne sont que quelques-unes des activités que le kit d'outils IronPDF peut faciliter.
  • IronPDF propose une validation des formulaires de connexion HTML avec prise en charge des agents utilisateurs, des proxies, des cookies, des en-têtes HTTP et des variables de formulaire.
  • IronPDF utilise des noms d'utilisateur et des mots de passe pour fournir aux utilisateurs l'accès à des documents protégés.
  • Avec seulement quelques lignes de code, IronPDF peut imprimer un fichier PDF à partir d'une variété de sources, notamment une chaîne, un flux ou une URL.

Configuration de Python

Configuration de l'environnement

Assurez-vous que Python est installé sur votre ordinateur. Pour télécharger et installer la version la plus récente de Python compatible avec votre système d'exploitation, rendez-vous sur le site officiel de Python. Créez un environnement virtuel une fois Python installé pour séparer les besoins de votre projet. Créez et gérez des environnements virtuels avec le module venv pour offrir à votre projet de conversion un espace de travail propre et distinct.

Nouvelle initiative dans PyCharm

Pour cette démonstration, PyCharm est recommandé comme IDE pour le développement de code Python.

Après avoir démarré l'IDE PyCharm, sélectionnez "Nouveau projet".

Comment extraire un texte spécifique d'un PDF en Python, Figure 1 : PyCharm

PyCharm

Une nouvelle fenêtre s'ouvrira lorsque vous choisirez "Nouveau projet", vous permettant de définir l'emplacement et l'environnement du projet. C'est ce que montre l'image ci-dessous.

Comment extraire un texte spécifique d'un PDF en Python, Figure 2 : Nouveau projet

Nouveau Projet

Après avoir choisi l'emplacement du projet et le chemin de l'environnement, cliquez sur le bouton Create pour commencer un nouveau projet. Le programme peut alors être créé dans une nouvelle fenêtre qui s'ouvrira en conséquence. Pour cette leçon, nous utilisons Python 3.9.

Comment extraire un texte spécifique d'un PDF en Python, Figure 3 : Créer un projet Python

Créer un projet Python

Exigences de la bibliothèque IronPDF

La bibliothèque IronPDF for .NET 6.0 est largement utilisée dans la bibliothèque Python IronPDF for .NET. Par conséquent, le runtime .NET 6.0 doit être installé sur votre ordinateur afin d'utiliser IronPDF for Python. Il peut être nécessaire d'installer .NET avant que ce module Python puisse être utilisé par les utilisateurs de Linux et de Mac. Visitez cette page de téléchargement de Microsoft pour obtenir l'environnement d'exécution nécessaire.

Installation de la bibliothèque IronPDF

Pour générer, modifier et ouvrir des fichiers portant l'extension ".pdf", le paquet "IronPDF" doit être installé. Ouvrez une fenêtre de terminal et entrez la commande suivante pour installer le paquet dans PyCharm :

:PackageInstall
:PackageInstall
SHELL

L'installation du package ironpdf est illustrée dans la capture d'écran ci-dessous.

Comment extraire du texte spécifique d'un PDF en Python, Figure 4 : Installer IronPDF

Installer IronPDF

Extraire des données spécifiques d'un fichier PDF

Il est possible d'extraire du texte des fichiers PDF à l'aide des bibliothèques IronPDF. IronPDF propose un certain nombre de méthodes d'extraction de texte. La première méthode consiste à récupérer l'intégralité du contenu de la page sous la forme d'une chaîne unique. La deuxième stratégie consiste à revoir le contenu page par page, en commençant par la première page. Les fichiers PDF existants peuvent être examinés à l'aide de la bibliothèque IronPDF. L'extrait de code suivant montre comment utiliser IronPDF pour inspecter des fichiers PDF en direct.

Il existe deux options pour extraire des informations d'un PDF :

  1. Extraction page par page du PDF

  2. Conversion de l'ensemble du PDF en texte

    L'exemple de fichier PDF pour cet article est disponible ci-dessous.

    Comment extraire un texte spécifique d'un PDF en Python, Figure 5 : PDF d'entrée

    PDF d'entrée

Extraction page par page du PDF

L'exemple de code fourni ci-dessous montre comment obtenir des données à partir d'un fichier PDF en utilisant le numéro de page.

from ironpdf import *

# PDF object
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from PDF document
all_text = pdf.ExtractTextFromPage(0)
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)
py
PYTHON

Le fragment de code montre comment lire un fichier PDF et créer un objet PDF en utilisant la fonction FromFile. Cet objet peut être utilisé pour accéder au texte et aux images du PDF. En passant le numéro de page en paramètre à la fonction ExtractTextFromPage, le texte peut être récupéré d'une page spécifique. Cette méthode renvoie une chaîne contenant tous les mots de la page choisie. Ensuite, utilisez la fonction split en Python pour séparer toutes les nouvelles lignes du texte extrait. Ensuite, vérifiez si chaque ligne du texte extrait contient les mots-clés requis. Si le mot-clé correspond, il affichera la ligne spécifique dans l'invite de commande. Sinon, il ignore cette ligne et passe à la suivante. Le résultat de l'extraction de texte se présente comme suit.

Conversion de l'ensemble du PDF en texte

L'exemple de code suivant illustre la première méthode permettant d'obtenir rapidement et simplement tout le contenu du PDF sous la forme d'une chaîne de caractères.

pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extracting texts from PDF document
all_text = pdf.ExtractAllText()
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)
py
PYTHON

L'exemple de code ci-dessus démontre comment utiliser la fonction FromFile pour lire un PDF à partir d'un chemin de fichier existant et le convertir en un objet fichier PDF. Par conséquent, nous pouvons utiliser cet objet lecteur PDF pour voir le texte et les images dans le PDF. La fonction ExtractAllText de l'objet sera utilisée pour extraire les données du PDF en texte brut, les convertir en chaîne de caractères et utiliser une logique similaire à celle ci-dessus pour trouver le mot-clé spécifique afin d'afficher le résultat dans le terminal. Les résultats sont affichés comme suit.

Comment Extraire un Texte Spécifique d'un PDF en Python, Figure 6 : Résultat

Sortie

Le code/la sortie ci-dessus montre que le document PDF donné contient à la fois le nom et l'âge, mais le résultat n'affiche que le nom disponible dans le document PDF.

Conclusion

La bibliothèque IronPDF propose de solides mécanismes de sécurité pour réduire les menaces et garantir la sécurité des données. Il n'est pas limité à un seul navigateur et est compatible avec tous ceux qui sont largement utilisés. Avec seulement quelques lignes de code, les programmeurs peuvent rapidement produire et lire des fichiers PDF à l'aide d'IronPDF. La bibliothèque IronPDF offre une gamme d'options de licence, y compris une licence de développement gratuite et des licences de développement supplémentaires disponibles à l'achat, afin de répondre aux diverses demandes des développeurs.

Une licence perpétuelle, une garantie de remboursement de 30 jours, un an de maintenance logicielle et des options de mise à niveau sont inclus dans le packet Lite. Ces licences peuvent être utilisées dans tous les environnements. En outre, IronPDF propose des licences gratuites assorties de certaines restrictions de redistribution. Une licence d'essai permet aux utilisateurs d'évaluer le produit sans filigrane.

Veuillez consulter les licences IronPDF disponibles pour plus d'informations sur les licences commerciales.

Chaknith Bin
Ingénieur logiciel
Chaknith travaille sur IronXL et IronBarcode. Il possède une expertise approfondie en C# et .NET, aidant à améliorer le logiciel et à soutenir les clients. Ses idées issues des interactions avec les utilisateurs contribuent à de meilleurs produits, une documentation améliorée et une expérience globale enrichie.
< PRÉCÉDENT
Comment éditer un fichier PDF en Python
SUIVANT >
Comment aplatir un fichier PDF en Python