Test dans un environnement réel
Test en production sans filigrane.
Fonctionne partout où vous en avez besoin.
Cet article montrera comment extraire des éléments de texte à partir de documents PDF à l'aide de la bibliothèque IronPDF for Python.
Python est un langage de programmation qui permet aux développeurs de créer simplement et rapidement des interfaces graphiques. Par rapport à d'autres langages, Python est également beaucoup plus dynamique pour les programmeurs. Pour cette raison, l'ajout de la bibliothèque IronPDF à Python est un processus simple. Une multitude d'outils préinstallés, dont PyQt, wxWidgets, Kivy et de nombreux autres paquets et bibliothèques Python, peuvent être utilisés pour construire rapidement et en toute sécurité une interface graphique complète. IronPDF incorpore Python et permet également l'intégration de fonctionnalités provenant d'autres frameworks, tels que .NET Core.
IronPDF facilite le développement du web. La raison principale en est l'adoption généralisée des paradigmes de développement web Python comme Django, Flask et Python. Reddit, Mozilla et Spotify ne sont que quelques-uns des sites web et des services en ligne qui ont utilisé ces cadres.
Assurez-vous que Python est installé sur votre ordinateur. Pour télécharger et installer la version la plus récente de Python compatible avec votre système d'exploitation, rendez-vous sur le site de l'Agence européenne pour l'environnement (AEE)site officiel de Python. Créez un environnement virtuel une fois Python installé pour séparer les besoins de votre projet. Créez et gérez des environnements virtuels avec le module venv
pour donner à votre projet de conversion un lieu de travail ordonné et séparé.
Pour cette démonstration, PyCharm est recommandé comme IDE pour le développement de code Python.
Après avoir démarré l'IDE PyCharm, sélectionnez "Nouveau projet".
PyCharm
Une nouvelle fenêtre s'ouvrira lorsque vous choisirez "Nouveau projet", vous permettant de définir l'emplacement et l'environnement du projet. C'est ce que montre l'image ci-dessous.
**Nouveau projet
Après avoir choisi l'emplacement du projet et le chemin d'accès à l'environnement, cliquez sur le bouton Créer pour commencer un nouveau projet. Le programme peut alors être créé dans une nouvelle fenêtre qui s'ouvrira en conséquence. Pour cette leçon, nous utilisons Python 3.9.
**Créer un projet Python
La bibliothèque IronPDF for .NET 6.0 est largement utilisée dans la bibliothèque Python IronPDF for .NET. Par conséquent, le runtime .NET 6.0 doit être installé sur votre ordinateur afin d'utiliser IronPDF for Python. Il peut être nécessaire d'installer .NET avant que ce module Python puisse être utilisé par les utilisateurs de Linux et de Mac. Visiter ce sitepage de téléchargement de Microsoft pour obtenir l'environnement d'exécution nécessaire.
Pour générer, modifier et ouvrir des fichiers portant l'extension ".pdf", le paquet "IronPDF" doit être installé. Ouvrez une fenêtre de terminal et entrez la commande suivante pour installer le paquet dans PyCharm :
:PackageInstall
L'installation du paquet ironpdf
est illustrée dans la capture d'écran ci-dessous.
Installer IronPDF
Il est possible d'extraire du texte des fichiers PDF à l'aide des bibliothèques IronPDF. IronPDF propose un certain nombre de méthodes d'extraction de texte. La première méthode consiste à récupérer l'intégralité du contenu de la page sous la forme d'une chaîne unique. La deuxième stratégie consiste à revoir le contenu page par page, en commençant par la première page. Les fichiers PDF existants peuvent être examinés à l'aide de la bibliothèque IronPDF. L'extrait de code suivant montre comment utiliser IronPDF pour inspecter des fichiers PDF en direct.
Il existe deux options pour extraire des informations d'un PDF :
Extraction page par page du PDF
Conversion de l'ensemble du PDF en texte
L'exemple de fichier PDF pour cet article est disponible ci-dessous.
Input PDF
L'exemple de code fourni ci-dessous montre comment obtenir des données à partir d'un fichier PDF en utilisant le numéro de page.
from ironpdf import *
# PDF object
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from PDF document
all_text = pdf.ExtractTextFromPage(0)
for _data in all_text.split('\n'):
if('Name' in _data):
print(_data)
L'extrait de code montre comment lire un fichier PDF et construire un objet PDF à l'aide de la fonction FromFile
. Cet objet peut être utilisé pour accéder au texte et aux images du PDF. En passant le numéro de page comme paramètre à la fonction ExtractTextFromPage
, le texte peut être récupéré à partir d'une page spécifique. Cette méthode renvoie une chaîne contenant tous les mots de la page choisie. Utilisez ensuite la fonction split
de Python pour séparer toutes les nouvelles lignes du texte extrait. Ensuite, vérifiez si chaque ligne du texte extrait contient les mots-clés requis. Si le mot-clé correspond, il affichera la ligne spécifique dans l'invite de commande. Sinon, il ignore cette ligne et passe à la suivante. Le résultat de l'extraction de texte se présente comme suit.
L'exemple de code suivant illustre la première méthode permettant d'obtenir rapidement et simplement tout le contenu du PDF sous la forme d'une chaîne de caractères.
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extracting texts from PDF document
all_text = pdf.ExtractAllText()
for _data in all_text.split('\n'):
if('Name' in _data):
print(_data)
L'exemple de code ci-dessus montre comment utiliser la fonction FromFile
pour lire un PDF à partir d'un chemin d'accès existant et le convertir en un objet fichier PDF. Par conséquent, nous pouvons utiliser cet objet lecteur PDF pour voir le texte et les images dans le PDF. La fonction ExtractAllText
de l'objet sera utilisée pour extraire les données du PDF en texte brut, les convertir en chaîne de caractères et utiliser une logique similaire à celle décrite ci-dessus pour trouver le mot-clé spécifique afin d'afficher le résultat dans le terminal. Les résultats sont affichés comme suit.
Sortie
Le code/la sortie ci-dessus montre que le document PDF donné contient à la fois le nom et l'âge, mais le résultat n'affiche que le nom disponible dans le document PDF.
La bibliothèque IronPDF propose de solides mécanismes de sécurité pour réduire les menaces et garantir la sécurité des données. Il n'est pas limité à un seul navigateur et est compatible avec tous ceux qui sont largement utilisés. Avec seulement quelques lignes de code, les programmeurs peuvent rapidement produire et lire des fichiers PDF à l'aide d'IronPDF. La bibliothèque IronPDF offre une gamme d'options de licence, y compris une licence de développement gratuite et des licences de développement supplémentaires disponibles à l'achat, afin de répondre aux diverses demandes des développeurs.
Une licence perpétuelle, une garantie de remboursement de 30 jours, une année de maintenance du logiciel et des options de mise à niveau sont incluses dans le prix de la licencePaquet léger. Ces licences peuvent être utilisées dans tous les environnements. En outre, IronPDF propose des licences gratuites assorties de certaines restrictions de redistribution. Alicence d'essai permet aux utilisateurs d'évaluer le produit sans filigrane.
S'il vous plaîtafficher les licences IronPDF disponibles pour plus d'informations sur les licences commerciales.
9 produits de l'API .NET pour vos documents de bureau