UTILISATION D'IRONPDF POUR PYTHON

Comment convertir un PDF en texte en Python (Tutoriel)

Mise à jour septembre 21, 2024
Partager:

Cet article montrera comment utiliser IronPDF pour Python, l'une des bibliothèques PDF les plus puissantes, pour extraire n'importe quel texte disponible dans un document PDF.

2.0 Comment extraire du texte d'un PDF à l'aide de Python ?

  1. Installez la dernière version de Python à partir de la page de téléchargement de Python

  2. Ouvrir tous les outils IDE pour Python

  3. Installer le moteur d'exécution .NET Core

  4. Installez la bibliothèque IronPDF for Python outélécharger depuis la page de téléchargement PyPI

  5. Extraire le texte du PDF

2.1 Qu'est-ce qu'IronPDF for Python ?

Il est simple d'intégrer la bibliothèque IronPDF dans Python, car c'est un langage beaucoup plus dynamique comparé à d'autres langages et qui permet aux développeurs de créer des interfaces graphiques rapidement et facilement. Il dispose d'une pléthore d'outils préinstallés, dont PyQT, wxWidgets, kivy et de nombreux autres paquets et bibliothèques, qui peuvent tous être utilisés pour créer rapidement et en toute sécurité une interface graphique complète.

IronPDF pour Python est une bibliothèque extrêmement efficace, particulièrement utile pour le développement web. La disponibilité de nombreux paradigmes de développement web Python, tels que Django, Flask et Pyramid, est en partie responsable de cette situation. Ces cadres ont été utilisés par de nombreux sites web et services en ligne, dont Reddit, Mozilla et Spotify.

2.2 Caractéristiques d'IronPDF

  • Un fichier PDF peut êtrecréé à partir d'une variété de sourcesla traduction de sites web, y compris HTML, HTML5, ASP et PHP. Outre les fichiers HTML, il est également possible deconvertir des fichiers images en PDF.
  • IronPDF vous permet de créer des documents PDF interactifs, de remplir et d'envoyer desformulaires interactifs, diviser etcombinerFichiers PDF,extraire du texte et des imagesà partir de fichiers PDF, recherchez certains mots dans un fichier PDF,rasteriser les pages PDF en images, convertir PDF en HTML, et imprimer des fichiers PDF.
  • IronPDF peut ouvrir des fichiers PDF et les imprimer à partir d'une URL. En outre, elle permet aux agents utilisateurs de se connecter derrière des formulaires de connexion HTML, des proxies, des cookies, des en-têtes HTTP, des identifiants de connexion réseau personnalisés, des variables de formulaire et des agents utilisateurs.
  • Les images peuvent être extraites des documents à l'aide d'IronPDF.
  • Avec IronPDF, il est très facile deajouter des en-têtes et des pieds de pagela traduction doit se faire en anglais, en français et en espagnol, avec du texte et des images,signets etfiligranesvous pouvez également traduire des documents en anglais, en français, en espagnol, en allemand, en portugais et en russe.
  • Il est possible de combiner et de séparer des pages à l'aide d'un document nouveau ou existant en utilisant IronPDF.
  • Sans utiliser de visionneuse Acrobat, les documents peuvent être convertis en objets PDF.
  • Un fichier CSS peut être utilisé pour créer un document PDF.
  • La création de documents est possible en utilisant des fichiers CSS de type média.

2.3 Importer la bibliothèque IronPDF

Incluez les instructions d'importation suivantes au début des fichiers source où IronPDF sera utilisé afin d'importer IronPDF :

from ironpdf import *
PYTHON

2.4 Définir la clé de licence (si nécessaire)

Bien que l'utilisation d'IronPDF for Python soit gratuite, elle permet de filigraner les fichiers PDF avec un arrière-plan en mosaïque pour les utilisateurs gratuits. Vous devez donner à la bibliothèque une clé de licence légitime afin d'utiliser IronPDF pour créer des PDF sans filigrane. La manière de configurer la bibliothèque avec une clé de licence est illustrée dans l'extrait de code suivant :

License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"
PYTHON

Avant de créer des fichiers PDF ou de modifier leur contenu, assurez-vous que la clé de licence est configurée. La méthode LicenseKey doit être appelée avant toute autre ligne de code. Pourobtenir une clé de licence d'essai gratuite, visitez le sitepage d'autorisation.

2.5 Paramétrer les fichiers journaux

Un fichier texte appelé "Default" peut stocker les messages produits par Custom.log dans le répertoire du script Python. L'extrait de code ci-dessous peut être utilisé pour définir la propriété LogFilePath et personnaliser le nom et l'emplacement du fichier journal :

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

3.0 Extraire le texte d'un PDF avec IronPDF

La bibliothèque IronPDF pour Python peut convertir des pages PDF en objets PDF et permet l'extraction de texte à partir de fichiers PDF, ce qui inclut les fichiers PDF numérisés. Voici un exemple qui montre comment lire un PDF existant à l'aide d'IronPDF.

La première méthode consiste à extraire tout le texte disponible dans un PDF ; un exemple de code est fourni ci-dessous.

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON

Comme l'illustre le code ci-dessus, la méthode FromFile est un objet lecteur PDF qui charge le fichier PDF existant et le convertit en objets document PDF. Cet objet peut être utilisé pour lire le texte et les images disponibles sur les pages PDF. L'objet fournit une méthode appelée ExtractAllText qui extrait chaque morceau de texte de l'ensemble du fichier PDF, en conservant le texte dans une chaîne qui peut être traitée. Utilisez ensuite la fonction print pour afficher le texte.

Comment convertir un PDF en texte en Python (tutoriel), Figure 1 : Affichage du texte

Afficher le texte

L'exemple de code pour la deuxième méthode qui peut être utilisée pour extraire page par page le texte d'un fichier PDF. Il est fourni ci-dessous.

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)
PYTHON

La méthode FromFile est utilisée pour charger le fichier PDF à partir d'un fichier existant et le convertir en un objet fichier PDF, comme le montre le code ci-dessus. Une méthode de l'objet page PDF appelée ExtractTextFromPage permet d'extraire tout le texte d'une page d'un fichier PDF. Le numéro de page doit être fourni en tant que paramètre pour extraire le texte de cette page particulière. Ensuite, après avoir extrait le texte, page_text peut être utilisé pour contenir les informations qui peuvent être traitées.

Voir d'autres exemples pour extraire du texte d'un PDF.

4.0 Conclusion

La bibliothèque IronPDF, en revanche, offre de solides mesures de sécurité pour réduire les risques potentiels. Il n'est pas adapté à un navigateur en particulier et fonctionne avec tous les navigateurs couramment utilisés. IronPDF permet aux programmeurs de produire et de lire facilement des fichiers PDF avec seulement quelques lignes de code. La bibliothèque IronPDF offre une gamme d'options de licence, y compris une licence de développement gratuite et des licences de développement supplémentaires disponibles à l'achat, afin de répondre aux besoins des différents développeurs.

IronPDF comprend une licence perpétuelle, une garantie de remboursement de 30 jours, un an d'assistance logicielle et des options de mise à niveau. Il n'y a pas de frais supplémentaires après l'achat initial. Ces licences peuvent être utilisées dans des environnements de développement, d'essai et de production. En savoir plus sur les licences de produits.

Télécharger le produit logiciel.

< PRÉCÉDENT
Comment visualiser un fichier PDF en Python

Prêt à commencer ? Version : 2024.11.1 vient de paraître

Installation gratuite de pip Voir les licences > ;