from ironpdf import *
# Instantiate Renderer
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>")
# Export to a file or Stream
pdf.SaveAs("output.pdf")
# Advanced Example with HTML Assets
# Load external html assets: Images, CSS and JavaScript.
# An optional BasePath 'C:\site\assets\' is set as the file location to load assets from
myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", r"C:\site\assets")
myAdvancedPdf.SaveAs("html-with-assets.pdf")
Extraire les données d'une facture à partir d'un fichier PDF Python
UTILISATION D'IRONPDF POUR PYTHON
Comment extraire les données d'une facture à partir d'un fichier PDF en Python ?
Regan Pun
septembre 12, 2023
Mise à jour septembre 28, 2024
Partager:
Cet article expliquera comment vous pouvez extraire des données textuelles à partir de fichiers PDF de factures en utilisant la bibliothèque IronPDF pour Python.
Comment extraire les données d'une facture à partir d'un fichier PDF en Python ?
Installez la bibliothèque Python permettant d'extraire les données des factures PDF.
Utilisez la méthode PdfDocument.FromFile pour ouvrir un fichier PDF.
Extraire toutes les données de la facture en utilisant la méthode ExtractAllText.
Utilisez la méthode print pour imprimer toutes les données extraites de la facture.
Extraire des données spécifiques à partir des données de la facture.
1. IronPDF
IronPDF for Python est une bibliothèque robuste utilisant Python qui sert de pont entre les applications Python et les documents PDF. Cet outil polyvalent offre aux développeurs les moyens de créer, de manipuler et d'interagir sans effort avec des fichiers PDF au sein de leurs projets Python. Voici quelques-unes des caractéristiques qui font d'IronPDF un atout précieux :
Génération de PDF :IronPDF permet la génération dynamique de fichiers PDF à partir de zéro, permettant aux développeurs de créer des PDF de manière programmatique avec du contenu, un style et une mise en page personnalisés.
Conversion de HTML en PDF :Il peut convertir le contenu HTML, y compris les pages web, en PDFs de haute qualité, en préservant la mise en page et le style du HTML original, ce qui est particulièrement utile pour générer des rapports et de la documentation.
Édition de PDF :Les développeurs peuvent facilement éditer des PDF existants en ajoutant, modifiant ou supprimant du texte, des images et des éléments interactifs, en faisant un outil puissant pour la manipulation de documents.
Formulaires PDF :Il prend en charge la création et le remplissage de formulaires PDF interactifs, ce qui le rend idéal pour les applications nécessitant la saisie de données utilisateur et la collecte d'informations.
Signatures numériques :Vous pouvez ajouter des signatures numériques aux documents PDF, assurant ainsi l'intégrité et l'authenticité de vos fichiers, ce qui est essentiel à des fins légales et de sécurité.
Extraction de données PDF :IronPDF offre des capacités d'extraction pour protéger les informations contenues dans les PDFs.
2. Mise en place de l'environnement
La mise en place de l'environnement d'IronPDF pour Python implique quelques étapes pour s'assurer que vous pouvez commencer à utiliser la bibliothèque de manière efficace. Voici un guide étape par étape :
Créez un nouveau projet Python dans Python et créez un environnement virtuel ou utilisez un interprète existant.
Installez IronPDF à l'aide du terminal de ligne de commande en exécutant la commande suivante dans le terminal :
pip install ironpdf
Installation d'IronPDF depuis la ligne de commande
3. Extraire des données d'une facture à l'aide d'IronPDF
Cette section montrera comment extraire des données du format de facture et du format de sortie en utilisant la bibliothèque Python IronPDF. Le code ci-dessous extrait toutes les données de la facture et les imprime dans la console.
Exemple de facture
L'exemple de facture
from ironpdf import *
pdf = PdfDocument.FromFile("INV_2022_00001.pdf")
all_text = pdf.ExtractAllText()
print(all_text)
from ironpdf import *
pdf = PdfDocument.FromFile("INV_2022_00001.pdf")
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON
Le code ci-dessus charge un fichier PDF spécifique nommé "INV_2022_00001.pdf" en utilisant la méthode PdfDocument.FromFile. Ensuite, il extrait des données sur tout le contenu textuel du document PDF chargé et les stocke dans la variable all_text. Enfin, le texte extrait est imprimé sur la console à l'aide de la fonction print. Essentiellement, ce code automatise le processus d'extraction des données textuelles structurées et des données non structurées d'un fichier PDF, les rendant accessibles pour un traitement ou une analyse plus poussée dans un environnement Python.
3.1. Sortie
Le texte de la facture émis à la console
4. Extraire des données spécifiques d'une facture
L'utilisation d'IronPDF pour l'extraction des données des factures est un processus assez facile, comme nous le voyons dans l'exemple ci-dessus. L'extraction de données telles que le numéro de facture et le montant à partir des données de la facture PDF peut être un processus compliqué, mais en utilisant IronPDF et l'aide de la bibliothèque open-source Python re, cela peut être réalisé. Le code ci-dessous extrait les données des factures PDF et les imprime dans la console.
Cet extrait de code utilise Python et la bibliothèque IronPDF pour extraire des données d'un document PDF. Il commence par importer les bibliothèques nécessaires et définit des modèles d'expressions régulières pour identifier un numéro de facture et un montant total dans le contenu textuel du PDF. Le code charge ensuite le PDF cible, en extrait tout le texte et recherche les correspondances avec les motifs définis.
Si des correspondances sont trouvées, il enregistre les valeurs correspondantes pour le numéro et le montant de la facture ; sinon, il attribue "Non trouvé". Enfin, le script et le fichier de sortie impriment le numéro de facture extrait et le montant à la console, offrant une méthode simplifiée pour automatiser l'extraction de données spécifiques à partir de documents PDF, une tâche couramment rencontrée dans diverses applications de traitement de données et de comptabilité.
4.1. Sortie
Le texte de sortie
5. Conclusion
Dans le paysage commercial actuel, qui évolue rapidement, Python se présente comme un allié redoutable pour les organisations qui cherchent à rationaliser leurs opérations financières en automatisant l'extraction de données cruciales à partir de factures PDF. En exploitant les capacités de Python et la bibliothèque IronPDF, les entreprises peuvent réduire considérablement la saisie manuelle des données, atténuer les erreurs, gagner du temps et améliorer la productivité globale dans le processus comptable de gestion des factures. IronPDF, avec ses fonctions polyvalentes, telles que la génération de PDF, la conversion de HTML en PDF, l'édition de PDF, la fusion, la division, la gestion de formulaires, les signatures numériques et l'extraction précise de données, apparaît comme un outil puissant pour ces tâches.
En suivant des procédures de configuration simples, les développeurs Python peuvent rapidement intégrer IronPDF à leurs projets, révolutionnant ainsi leurs flux de traitement des factures et faisant de l'extraction de données à partir des factures un processus transparent et efficace. L'exemple de code d'extraction de données utilisant IronPDF peut être trouvé à partir de la exemple de code détaillé. Le tutoriel complet sur l'extraction de données utilisant IronPDF for Python est disponible sur le suivantTutoriel Pythonet pour l'extraction de factures à l'aide de C#, visitez le siteTutoriel IronOCR.
Regan est diplômé de l'université de Reading, où il a obtenu une licence en ingénierie électronique. Avant de rejoindre Iron Software, il s'était concentré sur une seule tâche. Ce qu'il apprécie le plus chez Iron Software, c'est la diversité des tâches qu'il peut accomplir, qu'il s'agisse d'apporter une valeur ajoutée aux ventes, à l'assistance technique, au développement de produits ou à la commercialisation. Il aime comprendre comment les développeurs utilisent la bibliothèque d'Iron Software et utiliser ces connaissances pour améliorer continuellement la documentation et développer les produits.
< PRÉCÉDENT Comment analyser un fichier PDF en Python
SUIVANT > Comment convertir une image en PDF en Python
Des millions d'ingénieurs dans le monde entier lui font confiance
Réservez une démo en direct gratuite
Réservez une démonstration personnelle de 30 minutes.
Pas de contrat, pas de détails de carte, pas d'engagements.
Voici ce à quoi vous pouvez vous attendre :
Une démonstration en direct de notre produit et de ses principales fonctionnalités
Obtenez des recommandations de fonctionnalités spécifiques au projet
Toutes vos questions trouvent réponse pour vous assurer de disposer de toutes les informations dont vous avez besoin. (Aucun engagement de votre part.)
CHOISIR L'HEURE
VOS INFORMATIONS
Réservez votre démo en direct gratuite
Fiable par plus de 2 millions d'ingénieurs dans le monde entier