Passer au contenu du pied de page
UTILISER IRONPDF POUR PYTHON

Comment convertir un PDF en texte en Python (Tutoriel)

Cet article démontrera comment utiliser IronPDF pour Python, l'une des bibliothèques PDF les plus puissantes, pour extraire tout texte disponible dans un document PDF.

class="hsg-featured-snippet">

Comment convertir un PDF en texte en Python

  1. Installer une bibliothèque Python pour convertir un PDF en texte
  2. Charger un document PDF existant ou en créer un nouveau
  3. Utiliser la méthode ExtractAllText pour lire le texte du fichier ouvert
  4. Utiliser une autre surcharge de la méthode pour lire le texte de page(s) spécifique(s).
  5. Imprimer le texte extrait à la console ou le sauvegarder dans un fichier texte

2.0 Comment extraire du texte d'un PDF en utilisant Python ?

  1. Installer la dernière version de Python depuis la page de téléchargement de Python
  2. Ouvrir n'importe quel outil IDE pour Python
  3. Installer le runtime .NET Core
  4. Installer la bibliothèque IronPDF pour Python ou télécharger depuis la page de téléchargement PyPI
  5. Extraire le texte du PDF

2.1 Qu'est-ce qu'IronPDF pour Python ?

Il est simple d'intégrer la bibliothèque IronPDF dans Python car c'est un langage beaucoup plus dynamique comparé à d'autres langages et permet aux développeurs de créer des interfaces graphiques utilisateur rapidement et facilement. Il dispose d'une pléthore d'outils préinstallés, notamment PyQT, wxWidgets, kivy, et de nombreux autres paquets et bibliothèques supplémentaires, qui peuvent tous être utilisés pour créer une interface utilisateur graphique complète de manière rapide et sécurisée.

IronPDF pour Python est une bibliothèque extrêmement efficace, particulièrement utile pour le développement web. La disponibilité d'autant de paradigmes de développement web en Python, comme Django, Flask, et Pyramid, y est en partie responsable. Ces frameworks ont été utilisés par de nombreux sites web et services en ligne, y compris Reddit, Mozilla, et Spotify.

2.2 Fonctionnalités de IronPDF

  • Un fichier PDF peut être créé à partir d'une variété de sources, y compris HTML, HTML5, ASP, et des sites web PHP. En plus des fichiers HTML, il est également possible de convertir des fichiers image en PDF.
  • IronPDF allows you to build interactive PDF documents, fill out and send interactive forms, split and combine PDF files, extract text and images from PDF files, search for certain words within a PDF file, rasterize PDF pages to images, convert PDF to HTML, and print PDF files.
  • IronPDF peut ouvrir des fichiers PDF et imprimer à partir d'une URL. De plus, il permet aux agents utilisateurs de se connecter derrière des formulaires de connexion HTML, des proxies, des cookies, des en-têtes HTTP, des identifiants de connexion réseau personnalisés, des variables de formulaire, et des agents utilisateurs.
  • Les images peuvent être extraites des documents en utilisant IronPDF.
  • With IronPDF, it is very easy to add headers and footers, text and pictures, bookmarks and watermarks, and more to documents.
  • Il est possible de combiner et séparer des pages en utilisant un document nouveau ou existant avec IronPDF.
  • Sans utiliser de visualiseur Acrobat, les documents peuvent être convertis en objets PDF.
  • Un fichier CSS peut être utilisé pour créer un document PDF.
  • La création de documents est possible en utilisant des fichiers CSS de type média.

2.3 Importer la bibliothèque IronPDF

Inclure les déclarations d'importation suivantes au début des fichiers source où IronPDF sera utilisé afin d'importer IronPDF :

from ironpdf import *
from ironpdf import *
PYTHON

2.4 Définir la clé de licence (si nécessaire)

Bien qu'IronPDF pour Python soit gratuit à utiliser, il appose un filigrane sur les fichiers PDF avec un fond en mosaïque pour les utilisateurs gratuits. Vous devez fournir à la bibliothèque une clé de licence légitime pour utiliser IronPDF pour créer des PDF sans filigrane. Comment configurer la bibliothèque avec une clé de licence est montré dans l'extrait de code suivant :

# Set the license key for IronPDF
License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"
# Set the license key for IronPDF
License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"
PYTHON

Avant de créer des fichiers PDF ou de modifier leur contenu, assurez-vous que la clé de licence est configurée. La méthode LicenseKey doit être appelée avant toute autre ligne de code. To get a free trial license key, visit the licensing page.

2.5 Définir les fichiers journaux

Un fichier texte appelé "Default" peut stocker des messages de journal produits par Custom.log dans le répertoire du script Python. L'extrait de code ci-dessous peut être utilisé pour définir la propriété LogFilePath et personnaliser le nom et l'emplacement du fichier journal :

# Enable debugging and set the log file path and mode
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
# Enable debugging and set the log file path and mode
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

3.0 Extraire du texte PDF avec IronPDF

La bibliothèque IronPDF pour Python peut convertir des pages PDF en objets PDF et permet l'extraction de texte à partir de fichiers PDF, y compris les fichiers PDF scannés. Voici un exemple qui montre comment lire un PDF existant en utilisant IronPDF.

La première méthode consiste à extraire tout le texte disponible dans un PDF ; un exemple de code est fourni ci-dessous.

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract all the text from the entire PDF document
all_text = pdf.ExtractAllText()

# Display the extracted text
print(all_text)
from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract all the text from the entire PDF document
all_text = pdf.ExtractAllText()

# Display the extracted text
print(all_text)
PYTHON

Comme illustré dans le code ci-dessus, la méthode FromFile est un objet lecteur de PDF qui charge le fichier PDF existant et le convertit en objets document PDF. Cet objet peut être utilisé pour lire le texte et les images disponibles sur les pages PDF. L'objet fournit une méthode appelée ExtractAllText qui extrait chaque morceau de texte de tout le fichier PDF, gardant le texte dans une chaîne qui peut être traitée. Et puis utiliser la fonction print pour afficher le texte.

Comment convertir un PDF en texte en Python (Tutoriel), Figure 1 : Affichage du texte Affichage du texte

L'exemple de code pour la deuxième méthode qui peut être utilisé pour extraire du texte page par page d'un fichier PDF. Il est fourni ci-dessous.

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from a specific page in the document
page_text = pdf.ExtractTextFromPage(1)

# Display the extracted text from the specified page
print(page_text)
from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from a specific page in the document
page_text = pdf.ExtractTextFromPage(1)

# Display the extracted text from the specified page
print(page_text)
PYTHON

La méthode FromFile est utilisée pour charger le fichier PDF à partir d'un fichier existant et le convertir en un objet fichier PDF, comme montré dans le code ci-dessus. Une méthode sur l'objet page PDF appelée ExtractTextFromPage récupère tout le texte d'une page dans un fichier PDF. Le numéro de page doit être fourni en tant que paramètre pour extraire le texte de cette page particulière. Ensuite, après avoir extrait le texte, page_text peut être utilisé pour contenir les informations qui peuvent être traitées.

Consultez plus d'exemples pour extraire le texte d'un PDF.

4.0 Conclusion

La bibliothèque IronPDF, en revanche, offre des mesures de sécurité solides pour réduire les risques potentiels. Elle n'est pas adaptée à un seul navigateur et fonctionne avec tous les navigateurs couramment utilisés. IronPDF permet aux programmeurs de produire et lire facilement des fichiers PDF avec juste quelques lignes de code. La bibliothèque IronPDF propose une gamme d'options de licence, y compris une licence développeur gratuite et des licences de développement supplémentaires disponibles à l'achat, pour répondre aux besoins des différents développeurs.

IronPDF inclut une licence perpétuelle, une garantie de remboursement de 30 jours, une année de support logiciel, et des options de mise à jour. Il n'y a pas de dépenses supplémentaires après l'achat initial. Ces licences peuvent être utilisées dans des environnements de développement, de préproduction et de production. En savoir plus sur la licence du produit.

Télécharger le produit logiciel.

Questions Fréquemment Posées

Comment puis-je convertir un PDF en texte en Python ?

Vous pouvez convertir un PDF en texte en Python en utilisant la méthode PdfDocument.FromFile d'IronPDF pour charger votre PDF, puis en employant les méthodes ExtractAllText ou ExtractTextFromPage pour extraire le texte requis.

Quelle configuration est nécessaire pour utiliser une bibliothèque PDF en Python ?

Pour utiliser IronPDF, vous devez avoir Python et un IDE installés, ainsi que le runtime .NET Core. IronPDF peut être installé via la page de téléchargement PyPI.

Puis-je extraire du texte d'une page spécifique d'un PDF en utilisant Python ?

Oui, avec IronPDF, vous pouvez utiliser la méthode ExtractTextFromPage pour extraire du texte d'une page spécifique en fournissant le numéro de page comme paramètre.

Existe-t-il des options gratuites pour utiliser une bibliothèque PDF en Python ?

IronPDF pour Python propose une version gratuite qui ajoute un filigrane aux PDFs. Pour supprimer les filigranes et débloquer toutes les fonctionnalités, vous aurez besoin d'une clé de licence.

Comment intégrer une bibliothèque PDF avec des frameworks web comme Django ou Flask ?

IronPDF s'intègre parfaitement avec des frameworks web tels que Django et Flask, vous permettant de générer et manipuler des PDFs dans vos projets d'application web.

Quelles fonctionnalités dois-je rechercher dans une bibliothèque PDF pour Python ?

Une bibliothèque PDF complète comme IronPDF doit prendre en charge la création de PDFs à partir de HTML et d'images, l'extraction de texte, le remplissage de formulaires, la fusion de PDFs, et l'ajout de favoris et de filigranes.

Comment définir une clé de licence pour une bibliothèque PDF en Python ?

Pour IronPDF, définissez la clé de licence en utilisant la méthode License.LicenseKey avant d'exécuter tout autre code pour enregistrer votre licence et supprimer les filigranes.

La bibliothèque PDF Python prend-elle en charge la création de PDF à partir de pages Web ?

IronPDF peut créer des PDFs à partir de HTML, HTML5 et de pages Web construites avec ASP ou PHP, en faisant un outil polyvalent pour la génération de PDFs basée sur le web.

Comment puis-je activer le débogage dans une bibliothèque PDF pour Python ?

Activez le débogage dans IronPDF en définissant Logger.EnableDebugging sur vrai et en définissant un chemin de fichier de journal à l'aide de Logger.LogFilePath.

Quelles sont les fonctionnalités de sécurité d'une bibliothèque PDF pour Python ?

IronPDF assure la sécurité et la compatibilité inter-navigateurs, offrant une solution fiable pour les développeurs cherchant une manipulation sécurisée de PDF en Python.

Curtis Chau
Rédacteur technique

Curtis Chau détient un baccalauréat en informatique (Université de Carleton) et se spécialise dans le développement front-end avec expertise en Node.js, TypeScript, JavaScript et React. Passionné par la création d'interfaces utilisateur intuitives et esthétiquement plaisantes, Curtis aime travailler avec des frameworks modernes ...

Lire la suite