UTILISATION D'IRONPDF POUR PYTHON

Comment extraire un texte spécifique d'un PDF en Python

Jordi Bardia

août 2, 2023

Mise à jour septembre 21, 2024

Cet article montrera comment extraire des éléments de texte à partir de documents PDF à l'aide de la bibliothèque IronPDF for Python.

IronPDF

Python est un langage de programmation qui permet aux développeurs de créer simplement et rapidement des interfaces graphiques. Par rapport à d'autres langages, Python est également beaucoup plus dynamique pour les programmeurs. Pour cette raison, l'ajout de la bibliothèque IronPDF à Python est un processus simple. Une multitude d'outils préinstallés, dont PyQt, wxWidgets, Kivy et de nombreux autres paquets et bibliothèques Python, peuvent être utilisés pour construire rapidement et en toute sécurité une interface graphique complète. IronPDF incorpore Python et permet également l'intégration de fonctionnalités provenant d'autres frameworks, tels que .NET Core.

IronPDF facilite le développement du web. La raison principale en est l'adoption généralisée des paradigmes de développement web Python comme Django, Flask et Python. Reddit, Mozilla et Spotify ne sont que quelques-uns des sites web et des services en ligne qui ont utilisé ces cadres.

Caractéristiques d'IronPDF

Avec IronPDF, les fichiers PDF peuvent êtrecréé à partir d'une variété de sourcesla traduction doit également porter sur les outils de développement .NET, y compris HTML, HTML5, ASPX et Razor/MVC View. Elle offre la possibilité deconvertir des pages HTML etimages dans des fichiers PDF.
Création de PDFs interactifs, remplissage et soumissionformulaires interactifs, fractionnement etcombinaisonFichiers PDF,extraction de textes et d'images, recherche de texte dans les fichiers PDF, rasterisation de PDFs en imagesl'utilisation de la boîte à outils IronPDF, la modification de la taille des polices, le traitement du langage naturel à l'aide de ChatGPT et la conversion de la propriété des pages PDF ne sont que quelques-unes des activités pour lesquelles la boîte à outils IronPDF peut apporter une aide précieuse.
IronPDF propose une validation des formulaires de connexion HTML avec prise en charge des agents utilisateurs, des proxies, des cookies, des en-têtes HTTP et des variables de formulaire.
IronPDF utilise des noms d'utilisateur et des mots de passe pour permettre aux utilisateurs d'accéder àdocuments protégés.
Avec seulement quelques lignes de code, IronPDF peut imprimer un fichier PDF à partir d'une variété de sources, notamment une chaîne, un flux ou une URL.

Configuration de Python

Configuration de l'environnement

Assurez-vous que Python est installé sur votre ordinateur. Pour télécharger et installer la version la plus récente de Python compatible avec votre système d'exploitation, rendez-vous sur le site de l'Agence européenne pour l'environnement (AEE)site officiel de Python. Créez un environnement virtuel une fois Python installé pour séparer les besoins de votre projet. Créez et gérez des environnements virtuels avec le module venv pour donner à votre projet de conversion un lieu de travail ordonné et séparé.

Nouvelle initiative dans PyCharm

Pour cette démonstration, PyCharm est recommandé comme IDE pour le développement de code Python.

Après avoir démarré l'IDE PyCharm, sélectionnez "Nouveau projet".

Comment extraire un texte spécifique d'un PDF en Python, Figure 1 : PyCharm

PyCharm

Une nouvelle fenêtre s'ouvrira lorsque vous choisirez "Nouveau projet", vous permettant de définir l'emplacement et l'environnement du projet. C'est ce que montre l'image ci-dessous.

Comment extraire un texte spécifique d'un PDF en Python, Figure 2 : Nouveau projet

**Nouveau projet

Après avoir choisi l'emplacement du projet et le chemin d'accès à l'environnement, cliquez sur le bouton Créer pour commencer un nouveau projet. Le programme peut alors être créé dans une nouvelle fenêtre qui s'ouvrira en conséquence. Pour cette leçon, nous utilisons Python 3.9.

Comment extraire un texte spécifique d'un PDF en Python, Figure 3 : Créer un projet Python

**Créer un projet Python

Exigences de la bibliothèque IronPDF

La bibliothèque IronPDF for .NET 6.0 est largement utilisée dans la bibliothèque Python IronPDF for .NET. Par conséquent, le runtime .NET 6.0 doit être installé sur votre ordinateur afin d'utiliser IronPDF for Python. Il peut être nécessaire d'installer .NET avant que ce module Python puisse être utilisé par les utilisateurs de Linux et de Mac. Visiter ce sitepage de téléchargement de Microsoft pour obtenir l'environnement d'exécution nécessaire.

Installation de la bibliothèque IronPDF

Pour générer, modifier et ouvrir des fichiers portant l'extension ".pdf", le paquet "IronPDF" doit être installé. Ouvrez une fenêtre de terminal et entrez la commande suivante pour installer le paquet dans PyCharm :

:PackageInstall

L'installation du paquet ironpdf est illustrée dans la capture d'écran ci-dessous.

Comment extraire un texte spécifique d'un PDF en Python, Figure 4 : Installer IronPdf

Installer IronPDF

Extraire des données spécifiques d'un fichier PDF

Il est possible d'extraire du texte des fichiers PDF à l'aide des bibliothèques IronPDF. IronPDF propose un certain nombre de méthodes d'extraction de texte. La première méthode consiste à récupérer l'intégralité du contenu de la page sous la forme d'une chaîne unique. La deuxième stratégie consiste à revoir le contenu page par page, en commençant par la première page. Les fichiers PDF existants peuvent être examinés à l'aide de la bibliothèque IronPDF. L'extrait de code suivant montre comment utiliser IronPDF pour inspecter des fichiers PDF en direct.

Il existe deux options pour extraire des informations d'un PDF :

Extraction page par page du PDF
Conversion de l'ensemble du PDF en texte
L'exemple de fichier PDF pour cet article est disponible ci-dessous.
Input PDF

Extraction page par page du PDF

L'exemple de code fourni ci-dessous montre comment obtenir des données à partir d'un fichier PDF en utilisant le numéro de page.

from ironpdf import *

# PDF object
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from PDF document
all_text = pdf.ExtractTextFromPage(0)
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)

from ironpdf import *

# PDF object
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from PDF document
all_text = pdf.ExtractTextFromPage(0)
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)

PYTHON

L'extrait de code montre comment lire un fichier PDF et construire un objet PDF à l'aide de la fonction FromFile. Cet objet peut être utilisé pour accéder au texte et aux images du PDF. En passant le numéro de page comme paramètre à la fonction ExtractTextFromPage, le texte peut être récupéré à partir d'une page spécifique. Cette méthode renvoie une chaîne contenant tous les mots de la page choisie. Utilisez ensuite la fonction split de Python pour séparer toutes les nouvelles lignes du texte extrait. Ensuite, vérifiez si chaque ligne du texte extrait contient les mots-clés requis. Si le mot-clé correspond, il affichera la ligne spécifique dans l'invite de commande. Sinon, il ignore cette ligne et passe à la suivante. Le résultat de l'extraction de texte se présente comme suit.

Conversion de l'ensemble du PDF en texte

L'exemple de code suivant illustre la première méthode permettant d'obtenir rapidement et simplement tout le contenu du PDF sous la forme d'une chaîne de caractères.

pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extracting texts from PDF document
all_text = pdf.ExtractAllText()
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)

pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extracting texts from PDF document
all_text = pdf.ExtractAllText()
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)

PYTHON

L'exemple de code ci-dessus montre comment utiliser la fonction FromFile pour lire un PDF à partir d'un chemin d'accès existant et le convertir en un objet fichier PDF. Par conséquent, nous pouvons utiliser cet objet lecteur PDF pour voir le texte et les images dans le PDF. La fonction ExtractAllText de l'objet sera utilisée pour extraire les données du PDF en texte brut, les convertir en chaîne de caractères et utiliser une logique similaire à celle décrite ci-dessus pour trouver le mot-clé spécifique afin d'afficher le résultat dans le terminal. Les résultats sont affichés comme suit.

Comment extraire un texte spécifique d'un PDF en Python, Figure 6 : Résultat

Sortie

Le code/la sortie ci-dessus montre que le document PDF donné contient à la fois le nom et l'âge, mais le résultat n'affiche que le nom disponible dans le document PDF.

Conclusion

La bibliothèque IronPDF propose de solides mécanismes de sécurité pour réduire les menaces et garantir la sécurité des données. Il n'est pas limité à un seul navigateur et est compatible avec tous ceux qui sont largement utilisés. Avec seulement quelques lignes de code, les programmeurs peuvent rapidement produire et lire des fichiers PDF à l'aide d'IronPDF. La bibliothèque IronPDF offre une gamme d'options de licence, y compris une licence de développement gratuite et des licences de développement supplémentaires disponibles à l'achat, afin de répondre aux diverses demandes des développeurs.

Une licence perpétuelle, une garantie de remboursement de 30 jours, une année de maintenance du logiciel et des options de mise à niveau sont incluses dans le prix de la licencePaquet léger. Ces licences peuvent être utilisées dans tous les environnements. En outre, IronPDF propose des licences gratuites assorties de certaines restrictions de redistribution. Alicence d'essai permet aux utilisateurs d'évaluer le produit sans filigrane.

S'il vous plaîtafficher les licences IronPDF disponibles pour plus d'informations sur les licences commerciales.

Jordi Bardia

Discutez avec l'équipe d'ingénierie maintenant

Ingénieur logiciel

Jordi maîtrise parfaitement Python, C# et C++. Lorsqu'il ne met pas à profit ses compétences chez Iron Software, il se consacre à la programmation de jeux. Partageant des responsabilités en matière de tests de produits, de développement de produits et de recherche, Jordi apporte une valeur ajoutée considérable à l'amélioration continue des produits. Cette expérience variée le stimule et l'engage, et il dit que c'est l'un des aspects qu'il préfère dans son travail chez Iron Software. Jordi a grandi à Miami, en Floride, et a étudié l'informatique et les statistiques à l'université de Floride.

< PRÉCÉDENT
Comment éditer un fichier PDF en Python

SUIVANT >
Comment aplatir un fichier PDF en Python