from ironpdf import *
# Instantiate Renderer
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>")
# Export to a file or Stream
pdf.SaveAs("output.pdf")
# Advanced Example with HTML Assets
# Load external html assets: Images, CSS and JavaScript.
# An optional BasePath 'C:\site\assets\' is set as the file location to load assets from
myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", r"C:\site\assets")
myAdvancedPdf.SaveAs("html-with-assets.pdf")
À l'ère de la transformation numérique, on ne saurait trop insister sur le caractère indispensable des documents PDF pour le partage et la conservation des informations.
Cependant, la prévalence despDF numérisésqui contiennent souvent des images plutôt que du texte consultable, représentent un défi de taille lorsqu'il s'agit d'extraire des données précieuses.
C'est là que Python apparaît comme une solution polyvalente et puissante, s'imposant comme un langage de programmation incontournable pour l'automatisation de diverses tâches, l'extraction d'informations à partir de documents scannés en étant un excellent exemple.
La flexibilité et les capacités robustes de Python permettent aux utilisateurs de naviguer efficacement à travers les complexités du contenu numérisé, en fournissant une approche rationalisée de l'accès et de l'utilisation des données des PDF à base d'images.
Python est l'un des langages de programmation les plus utilisés grâce à ses fonctionnalités avancées, visitez le site de l'associationPage Wikipédia sur Python pour découvrir le langage de programmation Python et son format structuré.
Dans cet article, nous verrons comment lire des PDF numérisés en langage de programmation Python à l'aide du logicielIronPDF pour la bibliothèque PDF de Python.
Pour lire le fichier PDF numérisé, installez d'abord la bibliothèque PDF d'IronPDF.
Importer les dépendances nécessaires.
Chargez le fichier PDF numérisé à l'aide de la méthode "PdfDocument.FromFile".
Extrayez tout le texte d'un PDF numérisé à l'aide de la méthode "ExtractAllText".
Imprimez tout le texte du fichier PDF à l'aide de la fonction print() méthode.
IronPDF for Python
IronPDF pour Python est une bibliothèque robuste développée par Iron Software, permettant une intégration transparente des capacités de génération et de manipulation de PDF dans les applications Python.
Cet outil polyvalent permet aux développeurs de créer, de modifier et d'interagir sans effort avec les documents PDF, en prenant en charge des tâches telles que la génération de rapports dynamiques, la conversion HTML-PDF et l'extraction de contenu à partir de fichiers PDF existants.
Grâce à une API conviviale, une documentation complète et un éventail de fonctionnalités, IronPDF simplifie le processus d'intégration de fonctionnalités PDF avancées dans les projets Python, ce qui en fait une ressource inestimable pour les développeurs qui cherchent à améliorer leurs applications avec des capacités de traitement du langage naturel des documents de niveau professionnel.
Caractéristiques d'IronPDF
IronPDF for Python est doté d'une série de fonctionnalités qui en font un outil puissant pour la génération de PDF et la manipulation de structures de fichiers texte.
Voici quelques-unes de ses principales caractéristiques :
Conversion HTML en PDF: Convertit le contenu HTML, y compris les CSS et les images, en documents PDF de haute qualité, ce qui permet aux développeurs d'exploiter le contenu Web existant dans leurs processus de génération de PDF et de créer des fichiers PDF consultables.
Manipulation de texte et d'images: Ajoutez et manipulez facilement du texte, des images et d'autres éléments dans les documents PDF, en contrôlant finement la mise en page et l'apparence des PDF générés.
Fusion et division de documents: Combinez plusieurs documents PDF en un seul fichier ou divisez des PDF volumineux en fichiers plus petits et plus faciles à gérer, offrant ainsi une grande souplesse dans l'organisation des documents.
Formulaires PDF: Créez et remplissez des formulaires PDF interactifs par programmation, facilitant ainsi l'automatisation des tâches liées aux formulaires dans les applications commerciales.
Fonctionnalités de sécurité: Le cryptage et la protection par mot de passe des documents PDF sécurisés garantissent la confidentialité des informations sensibles et les protègent contre tout accès non autorisé.
Extraction de texte: Extraire le contenu textuel des documents PDF à des fins d'analyse ou d'indexation, permettant aux développeurs de travailler avec les données textuelles contenues dans les fichiers PDF grâce à la capacité de reconnaissance de texte d'IronPDF.
Installation d'IronPDF pour Python
Avant de commencer le tutoriel de code, voyons d'abord comment installer IronPDF pour Python.
Tout d'abord, assurez-vous que Python est installé dans le système, et que vous avez un bon compilateur Python en main comme PyCharm, aussi PIP doit être installé pour installer IronPDF pour Python.
Tout d'abord, créez un nouveau projet Python ou ouvrez un projet existant.
Ouvrez la console et exécutez la commande suivante, puis appuyez sur Entrée.
pip install ironpdf
C'est ainsi qu'IronPDF for Python est intégré à votre projet Python.
Lecture de fichiers PDF scannés avec IronPDF pour Python
Dans cette section, nous verrons comment vous pouvezextraire le texte à partir de fichiers PDF numérisés à l'aide d'IronPDF.
from ironpdf import * License.LicenseKey = " Your License Ket "
# Load Scanned PDF document
pdf = PdfDocument.FromFile("C:/Users/buttw/INV_2023_00008.pdf")
# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
from ironpdf import * License.LicenseKey = " Your License Ket "
# Load Scanned PDF document
pdf = PdfDocument.FromFile("C:/Users/buttw/INV_2023_00008.pdf")
# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON
L'exemple de code ci-dessus permet d'extraire du texte de fichiers PDF scannés. voici la décomposition du code ci-dessus.
Importer le module IronPDF:
from ironpdf import *
from ironpdf import *
PYTHON
Cette ligne importe les modules et classes nécessaires de la bibliothèque IronPDF. L'astérisque(*) indique que toutes les classes et fonctions du module doivent être importées.
Set the License Key:
License.LicenseKey = " Your License Key "
License.LicenseKey = " Your License Key "
PYTHON
Cette ligne définit la clé de licence pour IronPDF. Vous devez remplacer "Votre clé de licence " par la clé de licence que vous avez obtenue d'Iron Software.
La clé de licence est nécessaire à l'utilisation d'IronPDF et est généralement fournie lors de l'achat du produit.
Charger un document PDF numérisé:
pdf = PdfDocument.FromFile("C:/Users/buttw/INV_2023_00008.pdf")
pdf = PdfDocument.FromFile("C:/Users/buttw/INV_2023_00008.pdf")
PYTHON
Cette ligne charge un document PDF numérisé situé dans le chemin d'accès au fichier spécifié("C:/Users/buttw/INV_2023_00008.pdf "). La méthode PdfDocument.FromFile est utilisée pour créer un objet PdfDocument à partir du fichier donné.
Extraire le texte d'un document PDF:
all_text = pdf.ExtractAllText()
all_text = pdf.ExtractAllText()
PYTHON
Cette ligne extrait tout le contenu textuel du document PDF chargé à l'aide de la fonctionMéthode ExtraireToutTexte de toutes les pages. Le texte extrait est ensuite stocké dans la variable all_text.
Imprimer le texte extrait:
print(all_text)
print(all_text)
PYTHON
Enfin, cette ligne imprime le texte extrait sur la console. La variable all_text contient le contenu textuel du document PDF numérisé.
Entrée PDF
Texte de sortie
Conclusion
Dans le domaine du traitement des documents numériques, le langage de programmation Python apparaît comme une solution polyvalente pour surmonter les défis posés par les PDF numérisés contenant des images au lieu de textes consultables.
La synergie entre la flexibilité de Python et les capacités robustes d'IronPDF for Python offre aux développeurs un moyen convaincant d'intégrer de manière transparente des fonctionnalités de génération, de manipulation et d'extraction de PDF dans leurs projets.
IronPDFdéveloppé par Iron Software, s'avère très utile à cet égard, car il offre des fonctionnalités telles que la conversion de fichiers PDF à partir de divers types de documents, la conversion de pages HTML en PDF, la manipulation de textes et d'images, et l'extraction de texte basée sur la reconnaissance optique de caractères (OCR) à partir de PDF scannés.
L'exemple de code présenté démontre la mise en œuvre directe d'IronPDF pour lire du texte à partir d'une page PDF scannée, mettant en évidence le potentiel d'extraction efficace de données et d'amélioration des capacités de traitement de documents dans les applications Python.
Alors que la demande de traitement sophistiqué des PDF ne cesse d'augmenter, IronPDF for Python est un outil précieux qui permet aux développeurs de naviguer facilement dans les méandres des contenus numérisés.
IronPDF pour Python offre un service delicence d'essai pour les développeurs, qui est une excellente occasion de découvrir les fonctionnalités d'IronPDF.
Le tutoriel complet sur l'extraction de texte à partir de PDF numérisés est disponible à l'adresse suivanteici.
Regan est diplômé de l'université de Reading, où il a obtenu une licence en ingénierie électronique. Avant de rejoindre Iron Software, il s'était concentré sur une seule tâche. Ce qu'il apprécie le plus chez Iron Software, c'est la diversité des tâches qu'il peut accomplir, qu'il s'agisse d'apporter une valeur ajoutée aux ventes, à l'assistance technique, au développement de produits ou à la commercialisation. Il aime comprendre comment les développeurs utilisent la bibliothèque d'Iron Software et utiliser ces connaissances pour améliorer continuellement la documentation et développer les produits.
< PRÉCÉDENT Comment ajouter des numéros de page à un PDF en Python
SUIVANT > PDFtoText en Python : Un tutoriel pas à pas
Des millions d'ingénieurs dans le monde entier lui font confiance
Réservez une démo en direct gratuite
Réservez une démonstration personnelle de 30 minutes.
Pas de contrat, pas de détails de carte, pas d'engagements.
Voici ce à quoi vous pouvez vous attendre :
Une démonstration en direct de notre produit et de ses principales fonctionnalités
Obtenez des recommandations de fonctionnalités spécifiques au projet
Toutes vos questions trouvent réponse pour vous assurer de disposer de toutes les informations dont vous avez besoin. (Aucun engagement de votre part.)
CHOISIR L'HEURE
VOS INFORMATIONS
Réservez votre démo en direct gratuite
Fiable par plus de 2 millions d'ingénieurs dans le monde entier