Test dans un environnement réel
Test en production sans filigrane.
Fonctionne partout où vous en avez besoin.
Cet article montrera comment utiliser IronPDF pour Python, l'une des bibliothèques PDF les plus puissantes, pour extraire n'importe quel texte disponible dans un document PDF.
ExtractAllText
pour lire le texte du fichier ouvertInstallez la dernière version de Python à partir de la page de téléchargement de Python
Ouvrir tous les outils IDE pour Python
Installer le moteur d'exécution .NET Core
Installez la bibliothèque IronPDF for Python outélécharger depuis la page de téléchargement PyPI
Il est simple d'intégrer la bibliothèque IronPDF dans Python, car c'est un langage beaucoup plus dynamique comparé à d'autres langages et qui permet aux développeurs de créer des interfaces graphiques rapidement et facilement. Il dispose d'une pléthore d'outils préinstallés, dont PyQT, wxWidgets, kivy et de nombreux autres paquets et bibliothèques, qui peuvent tous être utilisés pour créer rapidement et en toute sécurité une interface graphique complète.
IronPDF pour Python est une bibliothèque extrêmement efficace, particulièrement utile pour le développement web. La disponibilité de nombreux paradigmes de développement web Python, tels que Django, Flask et Pyramid, est en partie responsable de cette situation. Ces cadres ont été utilisés par de nombreux sites web et services en ligne, dont Reddit, Mozilla et Spotify.
Incluez les instructions d'importation suivantes au début des fichiers source où IronPDF sera utilisé afin d'importer IronPDF :
from ironpdf import *
Bien que l'utilisation d'IronPDF for Python soit gratuite, elle permet de filigraner les fichiers PDF avec un arrière-plan en mosaïque pour les utilisateurs gratuits. Vous devez donner à la bibliothèque une clé de licence légitime afin d'utiliser IronPDF pour créer des PDF sans filigrane. La manière de configurer la bibliothèque avec une clé de licence est illustrée dans l'extrait de code suivant :
License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"
Avant de créer des fichiers PDF ou de modifier leur contenu, assurez-vous que la clé de licence est configurée. La méthode LicenseKey
doit être appelée avant toute autre ligne de code. Pourobtenir une clé de licence d'essai gratuite, visitez le sitepage d'autorisation.
Un fichier texte appelé "Default" peut stocker les messages produits par Custom.log dans le répertoire du script Python. L'extrait de code ci-dessous peut être utilisé pour définir la propriété LogFilePath
et personnaliser le nom et l'emplacement du fichier journal :
# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
La bibliothèque IronPDF pour Python peut convertir des pages PDF en objets PDF et permet l'extraction de texte à partir de fichiers PDF, ce qui inclut les fichiers PDF numérisés. Voici un exemple qui montre comment lire un PDF existant à l'aide d'IronPDF.
La première méthode consiste à extraire tout le texte disponible dans un PDF ; un exemple de code est fourni ci-dessous.
from ironpdf import *
# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")
# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
Comme l'illustre le code ci-dessus, la méthode FromFile
est un objet lecteur PDF qui charge le fichier PDF existant et le convertit en objets document PDF. Cet objet peut être utilisé pour lire le texte et les images disponibles sur les pages PDF. L'objet fournit une méthode appelée ExtractAllText
qui extrait chaque morceau de texte de l'ensemble du fichier PDF, en conservant le texte dans une chaîne qui peut être traitée. Utilisez ensuite la fonction print
pour afficher le texte.
Afficher le texte
L'exemple de code pour la deuxième méthode qui peut être utilisée pour extraire page par page le texte d'un fichier PDF. Il est fourni ci-dessous.
from ironpdf import *
# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")
# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)
La méthode FromFile
est utilisée pour charger le fichier PDF à partir d'un fichier existant et le convertir en un objet fichier PDF, comme le montre le code ci-dessus. Une méthode de l'objet page PDF appelée ExtractTextFromPage
permet d'extraire tout le texte d'une page d'un fichier PDF. Le numéro de page doit être fourni en tant que paramètre pour extraire le texte de cette page particulière. Ensuite, après avoir extrait le texte, page_text
peut être utilisé pour contenir les informations qui peuvent être traitées.
Voir d'autres exemples pour extraire du texte d'un PDF.
La bibliothèque IronPDF, en revanche, offre de solides mesures de sécurité pour réduire les risques potentiels. Il n'est pas adapté à un navigateur en particulier et fonctionne avec tous les navigateurs couramment utilisés. IronPDF permet aux programmeurs de produire et de lire facilement des fichiers PDF avec seulement quelques lignes de code. La bibliothèque IronPDF offre une gamme d'options de licence, y compris une licence de développement gratuite et des licences de développement supplémentaires disponibles à l'achat, afin de répondre aux besoins des différents développeurs.
IronPDF comprend une licence perpétuelle, une garantie de remboursement de 30 jours, un an d'assistance logicielle et des options de mise à niveau. Il n'y a pas de frais supplémentaires après l'achat initial. Ces licences peuvent être utilisées dans des environnements de développement, d'essai et de production. En savoir plus sur les licences de produits.
Télécharger le produit logiciel.
9 produits de l'API .NET pour vos documents de bureau