from ironpdf import *
# Instantiate Renderer
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>")
# Export to a file or Stream
pdf.SaveAs("output.pdf")
# Advanced Example with HTML Assets
# Load external html assets: Images, CSS and JavaScript.
# An optional BasePath 'C:\site\assets\' is set as the file location to load assets from
myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", r"C:\site\assets")
myAdvancedPdf.SaveAs("html-with-assets.pdf")
Cet article démontrera comment extraire tout le texte des fichiers PDF à l'aide d'IronPDF for Python, et vous fournira les connaissances et les extraits de code Python pour accomplir cette tâche efficacement.
Extraire le texte du PDF importé à l'aide de la fonction Extraire le texte méthode
Extraire du texte de pages spécifiques avec la fonction Extraire le texte de la page méthode
Afficher le texte extrait sur la console ou dans un fichier texte
IronPDF - Bibliothèque Python
IronPDF for Python est une puissante bibliothèque PDF Python qui permet aux développeurs d'extraire du texte à partir de documents PDF. Avec IronPDF, vous pouvez automatiser la partie extraction de données du contenu textuel des fichiers PDF, ce qui facilite le traitement des données et l'analyse des informations contenues dans les documents PDF.
IronPDF offre aux programmeurs Python la possibilité de manipuler, d'extraire des données et d'interagir avec des fichiers PDF à l'aide de Python, ce qui facilite l'automatisation de diverses tâches liées aux PDF. Que vous ayez besoin de générer des PDF, de modifier des PDF existants, d'extraire des données à partir d'images d'extraction de contenu ou d'effectuer d'autres opérations PDF, IronPDF simplifie le processus grâce à son API intuitive et à ses puissantes fonctionnalités.
Caractéristiques principales
Parmi les caractéristiques de la bibliothèque IronPDF for Python, citons :
Avant de procéder à l'extraction de texte à l'aide d'IronPDF, assurez-vous que vous disposez des conditions préalables suivantes :
Installation de Python : Assurez-vous que Python est installé sur votre système. IronPDF est compatible avec les versions 3.x de Python, assurez-vous donc que vous disposez d'une installation Python compatible.
Bibliothèque IronPDF : Installez la bibliothèque IronPDF en utilisant pip, le gestionnaire de paquets Python. Ouvrez votre interface de ligne de commande et exécutez la commande suivante :
:ProductInstall
Note: Python doit être ajouté à la variable d'environnement PATH, afin d'utiliser les commandes pip.
Environnement de développement intégré(L'IDE) : Bien que cela ne soit pas strictement nécessaire, l'utilisation d'un IDE peut grandement améliorer votre expérience de développement. Il offre des fonctionnalités telles que la complétion de code, le débogage et un flux de travail plus rationalisé. PyCharm est un IDE populaire pour le développement de Python. Vous pouvez télécharger et installer PyCharm à partir du site web de JetBrainshttps://www.jetbrains.com/pycharm/.
Éditeur de texte : Si vous préférez travailler avec un éditeur de texte léger, vous pouvez utiliser l'éditeur de texte de votre choix, tel que Visual Studio Code, Sublime Text ou Atom. Ces éditeurs proposent la coloration syntaxique et d'autres fonctionnalités utiles pour le développement de Python. Vous pouvez également utiliser l'application IDLE de Python.
Créer un projet Python avec PyCharm
Après avoir installé PyCharm IDE, créez un projet PyCharm Python en suivant les étapes ci-dessous :
Lancer PyCharm: Ouvrez PyCharm à partir du lanceur d'applications de votre système ou d'un raccourci sur le bureau.
Créer un nouveau projet: Cliquez sur "Créer un nouveau projet" ou ouvrez un projet Python existant.
PyCharm IDE
Configurer les paramètres du projet: Donnez un nom à votre projet et choisissez l'endroit où créer le répertoire du projet. Sélectionnez l'interpréteur Python pour votre projet. Cliquez ensuite sur "Créer".
Créer un nouveau projet Python dans Pycharm
Créer les fichiers sources: PyCharm va créer la structure du projet, y compris un fichier Python principal et un répertoire pour les fichiers sources supplémentaires. Commencez à écrire le code et cliquez sur le bouton d'exécution ou appuyez sur Shift+F10 pour exécuter le script.
Extraire du texte d'un PDF en Python avec IronPDF
Plongeons maintenant dans les étapes de l'extraction de texte brut à partir de fichiers PDF à l'aide d'IronPDF for Python en langage de programmation Python.
Importer les bibliothèques requises
Pour commencer, importez les bibliothèques nécessaires dans votre script Python. Dans ce cas, l'exemple de code doit importer la bibliothèque IronPDF, qui fournit la fonctionnalité permettant de travailler avec des fichiers PDF.
import ironpdf
import ironpdf
PYTHON
Définir la clé de licence
Afin d'extraire le texte intégral d'un fichier PDF à l'aide d'IronPDF, nous devons disposer d'une licence IronPDF. Appliquez la licence ou la clé d'évaluation à l'aide de la commande suivante :
# Apply your license key
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
# Apply your license key
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
PYTHON
Note: Sans clé de licence, l'extraction de données par IronPDF est limitée à quelques caractères seulement du fichier d'extension PDF. Obtenez une clé de licence enl'achat d'IronPDF ou en s'inscrivant à unessai gratuit.
Charger le document PDF
Ensuite, chargez le fichier PDF en utilisant le document à l'aide de la méthode PdfDocument.FromFile() méthode d'IronPDF. Fournir le chemin d'accès au fichier PDF comme argument de cette méthode. Ceci chargera le fichier PDF dans un objet PdfDocument.
pdf = ironpdf.PdfDocument.FromFile("path/to/your/pdf_file.pdf")
pdf = ironpdf.PdfDocument.FromFile("path/to/your/pdf_file.pdf")
PYTHON
Fichier d'entrée
Pour extraire le texte du fichier PDF d'entrée et l'imprimer à l'écran, le document suivant est utilisé :
**Le fichier d'entrée
Extraire le texte des fichiers PDF
Une fois le document PDF chargé, vous pouvez extraire le contenu textuel à l'aide de la méthode ExtractText. Cette méthode renvoie le texte extrait sous forme de chaîne de caractères.
text = pdf.ExtractText()
text = pdf.ExtractText()
PYTHON
Traiter et utiliser le texte extrait
Maintenant que vous avez extrait le texte du PDF, vous pouvez le traiter et l'utiliser selon vos besoins. Vous pouvez effectuer des tâches telles que l'analyse du texte, son analyse, son stockage dans une base de données ou son utilisation pour un traitement ultérieur des données.
# Process and utilize the extracted text
print(text)
# Perform other operations with the extracted text
# Process and utilize the extracted text
print(text)
# Perform other operations with the extracted text
PYTHON
Sortie
Le texte extrait de la console
Extraire le texte d'une page spécifique d'un fichier PDF
IronPDF propose également une méthode pratique pour extraire du texte à partir de pages spécifiques d'un fichier PDF. Cette section explorera comment extraire du texte d'une page spécifique en utilisant la méthode ExtractTextFromPage fournie par IronPDF.
Le code suivant montre comment extraire du texte d'une page spécifique :
# Extract text from specific page in the document
page_2_text = pdf.ExtractTextFromPage(1)
# Extract text from specific page in the document
page_2_text = pdf.ExtractTextFromPage(1)
PYTHON
Dans l'exemple de code ci-dessus, pdf représente l'objet PdfDocument obtenu après le chargement du document PDF. La fonction ExtractTextFromPage()la méthode est utilisée pour extraire le texte d'une page spécifique lors de la lecture de PDF, indiquée par l'index de la page transmis en tant qu'argument. Dans ce cas, le texte est extrait de la deuxième page ou de la page numéro 2, qui correspond à l'index de la page 1.
**Extraire le texte de la page 2
Conclusion
Cet article a exploré comment extraire du texte à partir de fichiers PDF à l'aide d'IronPDF for Python. Elle couvre les étapes nécessaires, notamment l'importation de la ou des bibliothèques requises, le chargement du document PDF, l'extraction du contenu textuel et le traitement du texte extrait.
Grâce aux puissantes capacités d'extraction de texte d'IronPDF, vous pouvez automatiser l'extraction et le traitement ultérieur du texte des PDF, ce qui vous permet de traiter et d'analyser facilement les informations textuelles contenues dans les documents PDF. Son API intuitive et ses capacités étendues en font un choix idéal pour un large éventail de tâches liées aux PDF dans le cadre du développement Python.
IronPDF est gratuit à des fins de développement, mais il doit faire l'objet d'une licence pour une utilisation commerciale. Pour l'utiliser en mode production à des fins de test, il convient d'obtenir unessai gratuit. Téléchargez et installez la dernière version deIronPDF for Python et l'essayer.
Regan est diplômé de l'université de Reading, où il a obtenu une licence en ingénierie électronique. Avant de rejoindre Iron Software, il s'était concentré sur une seule tâche. Ce qu'il apprécie le plus chez Iron Software, c'est la diversité des tâches qu'il peut accomplir, qu'il s'agisse d'apporter une valeur ajoutée aux ventes, à l'assistance technique, au développement de produits ou à la commercialisation. Il aime comprendre comment les développeurs utilisent la bibliothèque d'Iron Software et utiliser ces connaissances pour améliorer continuellement la documentation et développer les produits.
< PRÉCÉDENT Comment télécharger un PDF à partir d'une URL en Python
SUIVANT > Comment visualiser un fichier PDF en Python
Des millions d'ingénieurs dans le monde entier lui font confiance
Réservez une démo en direct gratuite
Réservez une démonstration personnelle de 30 minutes.
Pas de contrat, pas de détails de carte, pas d'engagements.
Voici ce à quoi vous pouvez vous attendre :
Une démonstration en direct de notre produit et de ses principales fonctionnalités
Obtenez des recommandations de fonctionnalités spécifiques au projet
Toutes vos questions trouvent réponse pour vous assurer de disposer de toutes les informations dont vous avez besoin. (Aucun engagement de votre part.)
CHOISIR L'HEURE
VOS INFORMATIONS
Réservez votre démo en direct gratuite
Fiable par plus de 2 millions d'ingénieurs dans le monde entier