Test dans un environnement réel
Test en production sans filigrane.
Fonctionne partout où vous en avez besoin.
En ce qui concerne le partage de documents et le traitement de données, le format Portable Document Format créé par Adobe (PDF (EN ANGLAIS)) est essentiel pour préserver l'intégrité d'un contenu riche en texte et esthétiquement beau. Pour accéder aux documents PDF en ligne, il faut généralement disposer d'un programme particulier comprenant les modules requis. À l'ère moderne, les fichiers PDF sont nécessaires pour de nombreuses publications numériques importantes. Pour la création de documents et de factures professionnels, de nombreuses entreprises utilisent des fichiers de données PDF. Pour répondre à certaines exigences des clients, telles que l'extraction de données, les développeurs utilisent fréquemment des bibliothèques de création de documents PDF.
L'évolution des bibliothèques contemporaines a facilité la création de PDF et l'extraction de texte. Afin d'obtenir une intégration transparente et des performances optimales, il est essentiel de prendre en compte les capacités de création, de lecture et d'extraction de données d'un fichier PDF et de conversion lors du choix de la bibliothèque appropriée pour un projet impliquant la génération de PDF. Python peut être utilisé pour analyser un PDF existant et en extraire le texte des pages. Il existe plusieurs bibliothèques Python. IronPDF est une bibliothèque puissante qui permet notamment d'extraire du texte et des images des fichiers PDF.
Dans cet article, nous allons extraire des éléments textuels de documents PDF à l'aide de la bibliothèque IronPDF for Python.
Python est un langage de programmation qui permet aux développeurs de créer simplement et rapidement des interfaces graphiques. Par rapport à d'autres langages, Python est également beaucoup plus dynamique pour les programmeurs. Pour cette raison, l'ajout de la bibliothèque IronPDF à Python est un processus simple. Une multitude d'outils préinstallés, dont PyQt, wxWidgets, Kivy et de nombreux autres paquets et bibliothèques Python, peuvent être utilisés pour construire rapidement et en toute sécurité une interface graphique complète. IronPDF incorpore Python et nous permet également d'intégrer des fonctionnalités d'autres Frameworks, tels que .NET Core.
IronPDF facilite le développement du web. La raison principale en est l'adoption généralisée des paradigmes de développement web Python comme Django, Flask et Python. Reddit, Mozilla et Spotify ne sont que quelques-uns des sites web et des services en ligne qui ont utilisé ces cadres.
Assurez-vous que Python est installé sur votre ordinateur. Pour télécharger et installer la version la plus récente de Python compatible avec votre système d'exploitation, rendez-vous sur le site officiel de Python site web. Créez un environnement virtuel une fois Python installé pour séparer les besoins de votre projet. Créez et gérez des environnements virtuels avec le module venv pour donner à votre projet de conversion un lieu de travail ordonné et séparé.
Pour cette démonstration, nous utiliserons PyCharm, un IDE pour le développement de code Python.
Après avoir démarré l'IDE PyCharm, sélectionnez "Nouveau projet".
Une nouvelle fenêtre s'ouvre lorsque vous choisissez "Nouveau projet", vous permettant de définir l'emplacement et l'environnement du projet. C'est ce que montre l'image ci-dessous.
Après avoir choisi l'emplacement du projet et le chemin d'accès à l'environnement, cliquez sur le bouton "Créer" pour commencer un nouveau projet. Le programme peut alors être créé dans une nouvelle fenêtre qui s'ouvrira en conséquence. Pour cette leçon, nous utilisons Python 3.9.
La bibliothèque IronPDF for Python utilise largement .NET 6.0. Par conséquent, le moteur d'exécution .NET 6.0 doit être installé sur votre ordinateur afin d'utiliser IronPDF for Python. Il peut être nécessaire d'installer .NET avant que ce module Python puisse être utilisé par les utilisateurs de Linux et de Mac. Visiter ce site page pour obtenir l'environnement d'exécution nécessaire.
Pour générer, modifier et ouvrir des fichiers portant l'extension ".pdf", le paquet "IronPDF" doit être installé. Ouvrez une fenêtre de terminal et entrez la commande suivante pour installer le paquet dans PyCharm :
:PackageInstall
L'installation du paquet ironpdf
est illustrée dans la capture d'écran ci-dessous.
Nous pouvons également extraire du texte des fichiers PDF à l'aide des bibliothèques IronPDF. IronPDF propose un certain nombre de méthodes d'extraction de texte. La première méthode consiste à récupérer l'intégralité du contenu de la page sous la forme d'une chaîne unique. La deuxième stratégie consiste à revoir le contenu page par page, en commençant par la première page. Les fichiers PDF existants peuvent être examinés à l'aide de la bibliothèque IronPDF. L'extrait de code suivant montre comment utiliser IronPDF pour inspecter des fichiers PDF en direct.
Nous disposons de deux options pour extraire des informations d'un PDF :
Conversion de l'ensemble du PDF en texte
Le fichier PDF que nous utiliserons pour cet article est disponible ci-dessous.
L'exemple de code fourni ci-dessous montre comment obtenir des données à partir d'un fichier PDF en utilisant le numéro de page.
from ironpdf import *
# # PDF object
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# # Extract text from PDF document
all_text = pdf.ExtractTextFromPage(0)
for _data in all_text.split('\n'):
if('Name' in _data):
print(_data)
L'extrait de code montre comment lire un fichier PDF et construire un objet PDF à l'aide de la fonction FromFile
. Cet objet nous permet d'accéder au texte et aux photos du PDF. En passant le numéro de page comme paramètre à la fonction ExtractTextFromPage
, nous pouvons récupérer le texte d'une page spécifique. Cette méthode renvoie une chaîne contenant tous les mots de la page choisie. Ensuite, nous utilisons la fonction split
de Python pour séparer toutes les nouvelles lignes du texte extrait. Ensuite, nous vérifions si chaque ligne du texte extrait contient les mots-clés que nous devons trouver. Si le mot-clé correspond, il affichera la ligne spécifique dans l'invite de commande. Sinon, il ignore cette ligne et passe à la suivante. Le résultat de l'extraction de texte se présente comme suit.
L'exemple de code suivant illustre la première méthode permettant d'obtenir rapidement et simplement tout le contenu du PDF sous la forme d'une chaîne de caractères.
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# # Extracting texts from PDF document
all_text = pdf.ExtractAllText()
for _data in all_text.split('\n'):
if('Name' in _data):
print(_data)
L'exemple de code ci-dessus montre comment utiliser la fonction FromFile
pour lire un PDF à partir d'un chemin d'accès existant et le convertir en un objet fichier PDF. Par conséquent, nous pouvons utiliser cet objet lecteur PDF pour voir le texte et les images dans le PDF. La fonction ExtractAllText
de l'objet sera utilisée pour extraire les données du PDF en texte brut, les convertir en chaîne de caractères et utiliser une logique similaire à celle décrite ci-dessus pour trouver le mot-clé spécifique afin d'afficher le résultat dans le terminal. Les résultats sont affichés comme suit.
Le code/la sortie ci-dessus montre que le document PDF donné contient à la fois le nom et l'âge, mais le résultat n'affiche que le nom disponible dans le document PDF.
La bibliothèque IronPDF propose de solides mécanismes de sécurité pour réduire les menaces et garantir la sécurité des données. Il n'est pas limité à un seul navigateur et est compatible avec tous ceux qui sont largement utilisés. Avec seulement quelques lignes de code, les programmeurs peuvent rapidement produire et lire des fichiers PDF à l'aide d'IronPDF. La bibliothèque IronPDF offre une gamme d'options de licence, y compris une licence de développement gratuite et des licences de développement supplémentaires disponibles à l'achat, afin de répondre aux diverses demandes des développeurs.
Une licence perpétuelle, une garantie de remboursement de 30 jours, une année de maintenance du logiciel et des options de mise à niveau sont incluses dans le prix de la licence Paquet léger. Ces licences peuvent être utilisées dans tous les environnements. En outre, IronPDF propose des licences gratuites assorties de certaines restrictions de redistribution. A licence d'essai permet aux utilisateurs d'évaluer le produit sans filigrane.
S'il vous plaît afficher les licences IronPDF disponibles pour plus d'informations sur les licences commerciales.
9 produits de l'API .NET pour vos documents de bureau