from ironpdf import *
# Instantiate Renderer
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>")
# Export to a file or Stream
pdf.SaveAs("output.pdf")
# Advanced Example with HTML Assets
# Load external html assets: Images, CSS and JavaScript.
# An optional BasePath 'C:\site\assets\' is set as the file location to load assets from
myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", r"C:\site\assets")
myAdvancedPdf.SaveAs("html-with-assets.pdf")
Comment convertir un PDF en texte en Python (Tutoriel)
Kannapat Udonpant
juin 30, 2023
Mise à jour septembre 21, 2024
Partager:
Cet article montrera comment utiliser IronPDF pour Python, l'une des bibliothèques PDF les plus puissantes, pour extraire n'importe quel texte disponible dans un document PDF.
Il est simple d'intégrer la bibliothèque IronPDF dans Python, car c'est un langage beaucoup plus dynamique comparé à d'autres langages et qui permet aux développeurs de créer des interfaces graphiques rapidement et facilement. Il dispose d'une pléthore d'outils préinstallés, dont PyQT, wxWidgets, kivy et de nombreux autres paquets et bibliothèques, qui peuvent tous être utilisés pour créer rapidement et en toute sécurité une interface graphique complète.
IronPDF pour Python est une bibliothèque extrêmement efficace, particulièrement utile pour le développement web. La disponibilité de nombreux paradigmes de développement web Python, tels que Django, Flask et Pyramid, est en partie responsable de cette situation. Ces cadres ont été utilisés par de nombreux sites web et services en ligne, dont Reddit, Mozilla et Spotify.
IronPDF peut ouvrir des fichiers PDF et les imprimer à partir d'une URL. En outre, elle permet aux agents utilisateurs de se connecter derrière des formulaires de connexion HTML, des proxies, des cookies, des en-têtes HTTP, des identifiants de connexion réseau personnalisés, des variables de formulaire et des agents utilisateurs.
Les images peuvent être extraites des documents à l'aide d'IronPDF.
Il est possible de combiner et de séparer des pages à l'aide d'un document nouveau ou existant en utilisant IronPDF.
Sans utiliser de visionneuse Acrobat, les documents peuvent être convertis en objets PDF.
Un fichier CSS peut être utilisé pour créer un document PDF.
La création de documents est possible en utilisant des fichiers CSS de type média.
2.3 Importer la bibliothèque IronPDF
Incluez les instructions d'importation suivantes au début des fichiers source où IronPDF sera utilisé afin d'importer IronPDF :
from ironpdf import *
from ironpdf import *
PYTHON
2.4 Définir la clé de licence (si nécessaire)
Bien que l'utilisation d'IronPDF for Python soit gratuite, elle permet de filigraner les fichiers PDF avec un arrière-plan en mosaïque pour les utilisateurs gratuits. Vous devez donner à la bibliothèque une clé de licence légitime afin d'utiliser IronPDF pour créer des PDF sans filigrane. La manière de configurer la bibliothèque avec une clé de licence est illustrée dans l'extrait de code suivant :
Avant de créer des fichiers PDF ou de modifier leur contenu, assurez-vous que la clé de licence est configurée. La méthode LicenseKey doit être appelée avant toute autre ligne de code. Pour obtenir une clé de licence d'essai gratuite, visitez la page des licences.
2.5 Paramétrer les fichiers journaux
Un fichier texte appelé "Default" peut stocker les messages produits par Custom.log dans le répertoire du script Python. Le fragment de code ci-dessous peut être utilisé pour définir la propriété LogFilePath et personnaliser le nom et l'emplacement du fichier journal :
# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON
3.0 Extraire le texte d'un PDF avec IronPDF
La bibliothèque IronPDF pour Python peut convertir des pages PDF en objets PDF et permet l'extraction de texte à partir de fichiers PDF, ce qui inclut les fichiers PDF numérisés. Voici un exemple qui montre comment lire un PDF existant à l'aide d'IronPDF.
La première méthode consiste à extraire tout le texte disponible dans un PDF ; un exemple de code est fourni ci-dessous.
from ironpdf import *
# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")
# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
from ironpdf import *
# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")
# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON
Comme illustré dans le code ci-dessus, la méthode FromFile est un objet lecteur de PDF qui charge le fichier PDF existant et le convertit en objets de document PDF. Cet objet peut être utilisé pour lire le texte et les images disponibles sur les pages PDF. L'objet fournit une méthode appelée ExtractAllText qui extrait chaque morceau de texte de l'ensemble du fichier PDF, en conservant le texte dans une chaîne qui peut être traitée. Et ensuite utilisez la fonction print pour afficher le texte.
Affichage du texte
L'exemple de code pour la deuxième méthode qui peut être utilisée pour extraire page par page le texte d'un fichier PDF. Il est fourni ci-dessous.
from ironpdf import *
# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")
# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)
from ironpdf import *
# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")
# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)
PYTHON
La méthode FromFile est utilisée pour charger le fichier PDF à partir d'un fichier existant et le convertir en un objet fichier PDF, comme montré dans le code ci-dessus. Une méthode sur l'objet de page PDF appelée ExtractTextFromPage récupère tout le texte d'une page dans un fichier PDF. Le numéro de page doit être fourni comme paramètre pour extraire le texte de cette page particulière. Ensuite, après avoir extrait le texte, page_text peut être utilisé pour contenir les informations qui peuvent être traitées.
La bibliothèque IronPDF, en revanche, offre de solides mesures de sécurité pour réduire les risques potentiels. Il n'est pas adapté à un navigateur en particulier et fonctionne avec tous les navigateurs couramment utilisés. IronPDF permet aux programmeurs de produire et de lire facilement des fichiers PDF avec seulement quelques lignes de code. La bibliothèque IronPDF offre une gamme d'options de licence, y compris une licence de développement gratuite et des licences de développement supplémentaires disponibles à l'achat, afin de répondre aux besoins des différents développeurs.
IronPDF comprend une licence perpétuelle, une garantie de remboursement de 30 jours, un an d'assistance logicielle et des options de mise à niveau. Il n'y a pas de frais supplémentaires après l'achat initial. Ces licences peuvent être utilisées dans des environnements de développement, d'essai et de production. En savoir plus sur la licence des produits.
Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Tout en poursuivant ses études, Kannapat est également devenu membre du Vehicle Robotics Laboratory, qui fait partie du Department of Bioproduction Engineering (département d'ingénierie de la bioproduction). En 2022, il a mis à profit ses compétences en C# pour rejoindre l'équipe d'ingénieurs d'Iron Software, où il se concentre sur IronPDF. Kannapat apprécie son travail car il apprend directement auprès du développeur qui écrit la majeure partie du code utilisé dans IronPDF. Outre l'apprentissage par les pairs, Kannapat apprécie l'aspect social du travail chez Iron Software. Lorsqu'il n'écrit pas de code ou de documentation, Kannapat peut généralement être trouvé en train de jouer sur sa PS5 ou de revoir The Last of Us.
< PRÉCÉDENT Comment visualiser un fichier PDF en Python
Des millions d'ingénieurs dans le monde entier lui font confiance
Réservez une démo en direct gratuite
Réservez une démonstration personnelle de 30 minutes.
Pas de contrat, pas de détails de carte, pas d'engagements.
Voici ce à quoi vous pouvez vous attendre :
Une démonstration en direct de notre produit et de ses principales fonctionnalités
Obtenez des recommandations de fonctionnalités spécifiques au projet
Toutes vos questions trouvent réponse pour vous assurer de disposer de toutes les informations dont vous avez besoin. (Aucun engagement de votre part.)
CHOISIR L'HEURE
VOS INFORMATIONS
Réservez votre démo en direct gratuite
Fiable par plus de 2 millions d'ingénieurs dans le monde entier