UTILISATION D'IRONPDF POUR PYTHON

Comment extraire un texte spécifique d'un PDF en Python

Publié août 2, 2023
Partager:

1.0 Introduction

En ce qui concerne le partage de documents et le traitement de données, le format Portable Document Format créé par Adobe (PDF (EN ANGLAIS)) est essentiel pour préserver l'intégrité d'un contenu riche en texte et esthétiquement beau. Pour accéder aux documents PDF en ligne, il faut généralement disposer d'un programme particulier comprenant les modules requis. À l'ère moderne, les fichiers PDF sont nécessaires pour de nombreuses publications numériques importantes. Pour la création de documents et de factures professionnels, de nombreuses entreprises utilisent des fichiers de données PDF. Pour répondre à certaines exigences des clients, telles que l'extraction de données, les développeurs utilisent fréquemment des bibliothèques de création de documents PDF.

L'évolution des bibliothèques contemporaines a facilité la création de PDF et l'extraction de texte. Afin d'obtenir une intégration transparente et des performances optimales, il est essentiel de prendre en compte les capacités de création, de lecture et d'extraction de données d'un fichier PDF et de conversion lors du choix de la bibliothèque appropriée pour un projet impliquant la génération de PDF. Python peut être utilisé pour analyser un PDF existant et en extraire le texte des pages. Il existe plusieurs bibliothèques Python. IronPDF est une bibliothèque puissante qui permet notamment d'extraire du texte et des images des fichiers PDF.

Dans cet article, nous allons extraire des éléments textuels de documents PDF à l'aide de la bibliothèque IronPDF for Python.

2.0 IronPDF

Python est un langage de programmation qui permet aux développeurs de créer simplement et rapidement des interfaces graphiques. Par rapport à d'autres langages, Python est également beaucoup plus dynamique pour les programmeurs. Pour cette raison, l'ajout de la bibliothèque IronPDF à Python est un processus simple. Une multitude d'outils préinstallés, dont PyQt, wxWidgets, Kivy et de nombreux autres paquets et bibliothèques Python, peuvent être utilisés pour construire rapidement et en toute sécurité une interface graphique complète. IronPDF incorpore Python et nous permet également d'intégrer des fonctionnalités d'autres Frameworks, tels que .NET Core.

IronPDF facilite le développement du web. La raison principale en est l'adoption généralisée des paradigmes de développement web Python comme Django, Flask et Python. Reddit, Mozilla et Spotify ne sont que quelques-uns des sites web et des services en ligne qui ont utilisé ces cadres.

2.1 Caractéristiques d'IronPDF

  • Avec IronPDF, les fichiers PDF peuvent être créés à partir de diverses sources, notamment HTML, HTML5, ASPX et Razor/MVC View. Il permet de convertir des pages HTML et des images en fichiers PDF.
  • Créer des PDF interactifs, remplir et soumettre des formulaires interactifs, fusionner et diviser des fichiers PDF, extraire du texte et des images, rechercher du texte dans des fichiers PDF, convertir des PDF en images, modifier la taille des polices, traiter le langage naturel à l'aide de ChatGPT et convertir des pages PDF en propriétés ne sont que quelques-unes des activités pour lesquelles la boîte à outils IronPDF peut apporter son aide.
  • IronPDF propose une validation des formulaires de connexion HTML avec prise en charge des agents utilisateurs, des proxies, des cookies, des en-têtes HTTP et des variables de formulaire.
  • IronPDF utilise des noms d'utilisateur et des mots de passe pour permettre aux utilisateurs d'accéder aux documents protégés.
  • Quelques lignes de code suffisent pour imprimer un fichier PDF à partir de diverses sources, notamment une chaîne de caractères, un flux ou une URL.

3.0 Configuration de Python

3.1 Configuration de l'environnement

Assurez-vous que Python est installé sur votre ordinateur. Pour télécharger et installer la version la plus récente de Python compatible avec votre système d'exploitation, rendez-vous sur le site officiel de Python site web. Créez un environnement virtuel une fois Python installé pour séparer les besoins de votre projet. Créez et gérez des environnements virtuels avec le module venv pour donner à votre projet de conversion un lieu de travail ordonné et séparé.

3.2 Nouvelle initiative dans PyCharm

Pour cette démonstration, nous utiliserons PyCharm, un IDE pour le développement de code Python.

Après avoir démarré l'IDE PyCharm, sélectionnez "Nouveau projet".

Comment extraire un texte spécifique d'un PDF en Python : Figure 1 - PyCharm

Une nouvelle fenêtre s'ouvre lorsque vous choisissez "Nouveau projet", vous permettant de définir l'emplacement et l'environnement du projet. C'est ce que montre l'image ci-dessous.

Comment extraire un texte spécifique d'un PDF en Python : Figure 2 - Nouveau projet

Après avoir choisi l'emplacement du projet et le chemin d'accès à l'environnement, cliquez sur le bouton "Créer" pour commencer un nouveau projet. Le programme peut alors être créé dans une nouvelle fenêtre qui s'ouvrira en conséquence. Pour cette leçon, nous utilisons Python 3.9.

Comment extraire un texte spécifique d'un PDF en Python : Figure 3 - Créer un projet Python

3.3 Bibliothèque IronPDF requise

La bibliothèque IronPDF for Python utilise largement .NET 6.0. Par conséquent, le moteur d'exécution .NET 6.0 doit être installé sur votre ordinateur afin d'utiliser IronPDF for Python. Il peut être nécessaire d'installer .NET avant que ce module Python puisse être utilisé par les utilisateurs de Linux et de Mac. Visiter ce site page pour obtenir l'environnement d'exécution nécessaire.

3.4 Configuration de la bibliothèque IronPDF

Pour générer, modifier et ouvrir des fichiers portant l'extension ".pdf", le paquet "IronPDF" doit être installé. Ouvrez une fenêtre de terminal et entrez la commande suivante pour installer le paquet dans PyCharm :

:PackageInstall

L'installation du paquet ironpdf est illustrée dans la capture d'écran ci-dessous.

Comment extraire un texte spécifique d'un PDF en Python : Figure 4 - Installer IronPDF

4.0 Extraire des données spécifiques d'un fichier PDF

Nous pouvons également extraire du texte des fichiers PDF à l'aide des bibliothèques IronPDF. IronPDF propose un certain nombre de méthodes d'extraction de texte. La première méthode consiste à récupérer l'intégralité du contenu de la page sous la forme d'une chaîne unique. La deuxième stratégie consiste à revoir le contenu page par page, en commençant par la première page. Les fichiers PDF existants peuvent être examinés à l'aide de la bibliothèque IronPDF. L'extrait de code suivant montre comment utiliser IronPDF pour inspecter des fichiers PDF en direct.

Nous disposons de deux options pour extraire des informations d'un PDF :

  1. Extraction page par page du PDF
  2. Conversion de l'ensemble du PDF en texte

    Le fichier PDF que nous utiliserons pour cet article est disponible ci-dessous.

    Comment extraire un texte spécifique d'un PDF en Python : Figure 5 - PDF d'entrée

4.1 Extraction page par page du PDF

L'exemple de code fourni ci-dessous montre comment obtenir des données à partir d'un fichier PDF en utilisant le numéro de page.

from ironpdf import *
# # PDF object
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# # Extract text from PDF document
all_text = pdf.ExtractTextFromPage(0)
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)
PYTHON

L'extrait de code montre comment lire un fichier PDF et construire un objet PDF à l'aide de la fonction FromFile. Cet objet nous permet d'accéder au texte et aux photos du PDF. En passant le numéro de page comme paramètre à la fonction ExtractTextFromPage, nous pouvons récupérer le texte d'une page spécifique. Cette méthode renvoie une chaîne contenant tous les mots de la page choisie. Ensuite, nous utilisons la fonction split de Python pour séparer toutes les nouvelles lignes du texte extrait. Ensuite, nous vérifions si chaque ligne du texte extrait contient les mots-clés que nous devons trouver. Si le mot-clé correspond, il affichera la ligne spécifique dans l'invite de commande. Sinon, il ignore cette ligne et passe à la suivante. Le résultat de l'extraction de texte se présente comme suit.

4.2 Conversion de l'ensemble du PDF en texte

L'exemple de code suivant illustre la première méthode permettant d'obtenir rapidement et simplement tout le contenu du PDF sous la forme d'une chaîne de caractères.

pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# # Extracting texts from PDF document
all_text = pdf.ExtractAllText()
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)
PYTHON

L'exemple de code ci-dessus montre comment utiliser la fonction FromFile pour lire un PDF à partir d'un chemin d'accès existant et le convertir en un objet fichier PDF. Par conséquent, nous pouvons utiliser cet objet lecteur PDF pour voir le texte et les images dans le PDF. La fonction ExtractAllText de l'objet sera utilisée pour extraire les données du PDF en texte brut, les convertir en chaîne de caractères et utiliser une logique similaire à celle décrite ci-dessus pour trouver le mot-clé spécifique afin d'afficher le résultat dans le terminal. Les résultats sont affichés comme suit.

Comment extraire un texte spécifique d'un PDF en Python : Figure 6 - Sortie

Le code/la sortie ci-dessus montre que le document PDF donné contient à la fois le nom et l'âge, mais le résultat n'affiche que le nom disponible dans le document PDF.

5.0 Conclusion

La bibliothèque IronPDF propose de solides mécanismes de sécurité pour réduire les menaces et garantir la sécurité des données. Il n'est pas limité à un seul navigateur et est compatible avec tous ceux qui sont largement utilisés. Avec seulement quelques lignes de code, les programmeurs peuvent rapidement produire et lire des fichiers PDF à l'aide d'IronPDF. La bibliothèque IronPDF offre une gamme d'options de licence, y compris une licence de développement gratuite et des licences de développement supplémentaires disponibles à l'achat, afin de répondre aux diverses demandes des développeurs.

Une licence perpétuelle, une garantie de remboursement de 30 jours, une année de maintenance du logiciel et des options de mise à niveau sont incluses dans le prix de la licence Paquet léger. Ces licences peuvent être utilisées dans tous les environnements. En outre, IronPDF propose des licences gratuites assorties de certaines restrictions de redistribution. A licence d'essai permet aux utilisateurs d'évaluer le produit sans filigrane.

S'il vous plaît afficher les licences IronPDF disponibles pour plus d'informations sur les licences commerciales.

< PRÉCÉDENT
Comment éditer un fichier PDF en Python
SUIVANT >
Comment aplatir un fichier PDF en Python

Prêt à commencer ? Version : 2024.9 vient de paraître

Installation gratuite de pip Voir les licences > ;