UTILISATION D'IRONPDF POUR PYTHON

Comment convertir un PDF en texte en Python (Tutoriel)

Kannaopat Udonpant
Kannapat Udonpant
juin 30, 2023
Mise à jour septembre 21, 2024
Partager:

Cet article montrera comment utiliser IronPDF pour Python, l'une des bibliothèques PDF les plus puissantes, pour extraire n'importe quel texte disponible dans un document PDF.

2.0 Comment extraire du texte d'un PDF à l'aide de Python ?

  1. Installez la dernière version de Python depuis la page de téléchargement de Python

  2. Ouvrir tous les outils IDE pour Python

  3. Installer le moteur d'exécution .NET Core

  4. Installez la bibliothèque IronPDF for Python ou téléchargez-la depuis la page de téléchargement PyPI

  5. Extraire le texte du PDF

2.1 Qu'est-ce qu'IronPDF for Python ?

Il est simple d'intégrer la bibliothèque IronPDF dans Python, car c'est un langage beaucoup plus dynamique comparé à d'autres langages et qui permet aux développeurs de créer des interfaces graphiques rapidement et facilement. Il dispose d'une pléthore d'outils préinstallés, dont PyQT, wxWidgets, kivy et de nombreux autres paquets et bibliothèques, qui peuvent tous être utilisés pour créer rapidement et en toute sécurité une interface graphique complète.

IronPDF pour Python est une bibliothèque extrêmement efficace, particulièrement utile pour le développement web. La disponibilité de nombreux paradigmes de développement web Python, tels que Django, Flask et Pyramid, est en partie responsable de cette situation. Ces cadres ont été utilisés par de nombreux sites web et services en ligne, dont Reddit, Mozilla et Spotify.

2.2 Caractéristiques d'IronPDF

  • Un fichier PDF peut être créé à partir de diverses sources, y compris des sites web en HTML, HTML5, ASP et PHP. En plus des fichiers HTML, il est également possible de convertir des fichiers image en PDF.
  • IronPDF vous permet de créer des documents PDF interactifs, de remplir et d'envoyer des formulaires interactifs, de diviser et de combiner des fichiers PDF, d'extraire du texte et des images des fichiers PDF, de rechercher certains mots dans un fichier PDF, de rasteriser des pages PDF en images, de convertir des PDF en HTML, et d'imprimer des fichiers PDF.
  • IronPDF peut ouvrir des fichiers PDF et les imprimer à partir d'une URL. En outre, elle permet aux agents utilisateurs de se connecter derrière des formulaires de connexion HTML, des proxies, des cookies, des en-têtes HTTP, des identifiants de connexion réseau personnalisés, des variables de formulaire et des agents utilisateurs.
  • Les images peuvent être extraites des documents à l'aide d'IronPDF.
  • Avec IronPDF, il est très facile d'ajouter des en-têtes et pieds de page, du texte et des images, des signets et des filigranes, et plus encore aux documents.
  • Il est possible de combiner et de séparer des pages à l'aide d'un document nouveau ou existant en utilisant IronPDF.
  • Sans utiliser de visionneuse Acrobat, les documents peuvent être convertis en objets PDF.
  • Un fichier CSS peut être utilisé pour créer un document PDF.
  • La création de documents est possible en utilisant des fichiers CSS de type média.

2.3 Importer la bibliothèque IronPDF

Incluez les instructions d'importation suivantes au début des fichiers source où IronPDF sera utilisé afin d'importer IronPDF :

from ironpdf import *
PYTHON

2.4 Définir la clé de licence (si nécessaire)

Bien que l'utilisation d'IronPDF for Python soit gratuite, elle permet de filigraner les fichiers PDF avec un arrière-plan en mosaïque pour les utilisateurs gratuits. Vous devez donner à la bibliothèque une clé de licence légitime afin d'utiliser IronPDF pour créer des PDF sans filigrane. La manière de configurer la bibliothèque avec une clé de licence est illustrée dans l'extrait de code suivant :

License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"
PYTHON

Avant de créer des fichiers PDF ou de modifier leur contenu, assurez-vous que la clé de licence est configurée. La méthode LicenseKey doit être appelée avant toute autre ligne de code. Pour obtenir une clé de licence d'essai gratuite, visitez la page des licences.

2.5 Paramétrer les fichiers journaux

Un fichier texte appelé "Default" peut stocker les messages produits par Custom.log dans le répertoire du script Python. Le fragment de code ci-dessous peut être utilisé pour définir la propriété LogFilePath et personnaliser le nom et l'emplacement du fichier journal :

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

3.0 Extraire le texte d'un PDF avec IronPDF

La bibliothèque IronPDF pour Python peut convertir des pages PDF en objets PDF et permet l'extraction de texte à partir de fichiers PDF, ce qui inclut les fichiers PDF numérisés. Voici un exemple qui montre comment lire un PDF existant à l'aide d'IronPDF.

La première méthode consiste à extraire tout le texte disponible dans un PDF ; un exemple de code est fourni ci-dessous.

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON

Comme illustré dans le code ci-dessus, la méthode FromFile est un objet lecteur de PDF qui charge le fichier PDF existant et le convertit en objets de document PDF. Cet objet peut être utilisé pour lire le texte et les images disponibles sur les pages PDF. L'objet fournit une méthode appelée ExtractAllText qui extrait chaque morceau de texte de l'ensemble du fichier PDF, en conservant le texte dans une chaîne qui peut être traitée. Et ensuite utilisez la fonction print pour afficher le texte.

Comment convertir un PDF en texte en Python (Tutoriel), Figure 1 : Affichage du texte

Affichage du texte

L'exemple de code pour la deuxième méthode qui peut être utilisée pour extraire page par page le texte d'un fichier PDF. Il est fourni ci-dessous.

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)
PYTHON

La méthode FromFile est utilisée pour charger le fichier PDF à partir d'un fichier existant et le convertir en un objet fichier PDF, comme montré dans le code ci-dessus. Une méthode sur l'objet de page PDF appelée ExtractTextFromPage récupère tout le texte d'une page dans un fichier PDF. Le numéro de page doit être fourni comme paramètre pour extraire le texte de cette page particulière. Ensuite, après avoir extrait le texte, page_text peut être utilisé pour contenir les informations qui peuvent être traitées.

Découvrez plus d'exemples pour extraire du texte d'un PDF.

4.0 Conclusion

La bibliothèque IronPDF, en revanche, offre de solides mesures de sécurité pour réduire les risques potentiels. Il n'est pas adapté à un navigateur en particulier et fonctionne avec tous les navigateurs couramment utilisés. IronPDF permet aux programmeurs de produire et de lire facilement des fichiers PDF avec seulement quelques lignes de code. La bibliothèque IronPDF offre une gamme d'options de licence, y compris une licence de développement gratuite et des licences de développement supplémentaires disponibles à l'achat, afin de répondre aux besoins des différents développeurs.

IronPDF comprend une licence perpétuelle, une garantie de remboursement de 30 jours, un an d'assistance logicielle et des options de mise à niveau. Il n'y a pas de frais supplémentaires après l'achat initial. Ces licences peuvent être utilisées dans des environnements de développement, d'essai et de production. En savoir plus sur la licence des produits.

Téléchargez le produit logiciel.

Kannaopat Udonpant
Ingénieur logiciel
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Tout en poursuivant ses études, Kannapat est également devenu membre du Vehicle Robotics Laboratory, qui fait partie du Department of Bioproduction Engineering (département d'ingénierie de la bioproduction). En 2022, il a mis à profit ses compétences en C# pour rejoindre l'équipe d'ingénieurs d'Iron Software, où il se concentre sur IronPDF. Kannapat apprécie son travail car il apprend directement auprès du développeur qui écrit la majeure partie du code utilisé dans IronPDF. Outre l'apprentissage par les pairs, Kannapat apprécie l'aspect social du travail chez Iron Software. Lorsqu'il n'écrit pas de code ou de documentation, Kannapat peut généralement être trouvé en train de jouer sur sa PS5 ou de revoir The Last of Us.
< PRÉCÉDENT
Comment visualiser un fichier PDF en Python