UTILISATION D'IRONPDF POUR PYTHON

Comment extraire les données d'une facture à partir d'un fichier PDF en Python ?

Mise à jour septembre 28, 2024
Partager:

Cet article expliquera comment vous pouvez extraire des données textuelles à partir de fichiers PDF de factures en utilisant la bibliothèque IronPDF pour Python.

Comment extraire les données d'une facture à partir d'un fichier PDF en Python ?

  1. Installez la bibliothèque Python permettant d'extraire les données des factures PDF.

  2. Utilisez la méthode PdfDocument.FromFile pour ouvrir un fichier PDF.

  3. Extraire toutes les données de la facture en utilisant la méthode ExtractAllText.

  4. Utilisez la méthode print pour imprimer toutes les données extraites de la facture.

  5. Extraire des données spécifiques à partir des données de la facture.

1. IronPDF

IronPDF for Python est une bibliothèque robuste utilisant Python qui sert de pont entre les applications Python et les documents PDF. Cet outil polyvalent offre aux développeurs les moyens de créer, de manipuler et d'interagir sans effort avec des fichiers PDF au sein de leurs projets Python. Voici quelques-unes des caractéristiques qui font d'IronPDF un atout précieux :

  1. Génération de PDF :IronPDF permet la génération dynamique de fichiers PDF à partir de zéro, permettant aux développeurs de créer des PDF de manière programmatique avec du contenu, un style et une mise en page personnalisés.

  2. Conversion de HTML en PDF :Il peut convertir le contenu HTML, y compris les pages web, en PDFs de haute qualité, en préservant la mise en page et le style du HTML original, ce qui est particulièrement utile pour générer des rapports et de la documentation.

  3. Édition de PDF :Les développeurs peuvent facilement éditer des PDF existants en ajoutant, modifiant ou supprimant du texte, des images et des éléments interactifs, en faisant un outil puissant pour la manipulation de documents.

  4. Fusion et fractionnement de PDF : IronPDF vous permet defusionner plusieurs documents PDFdans un seul fichier ouspliter un PDF en plusieurs fichiers, offrant une flexibilité dans la gestion de grandes collections de PDF.

  5. Formulaires PDF :Il prend en charge la création et le remplissage de formulaires PDF interactifs, ce qui le rend idéal pour les applications nécessitant la saisie de données utilisateur et la collecte d'informations.

  6. Signatures numériques :Vous pouvez ajouter des signatures numériques aux documents PDF, assurant ainsi l'intégrité et l'authenticité de vos fichiers, ce qui est essentiel à des fins légales et de sécurité.

  7. Extraction de données PDF :IronPDF offre des capacités d'extraction pour protéger les informations contenues dans les PDFs.

2. Mise en place de l'environnement

La mise en place de l'environnement d'IronPDF pour Python implique quelques étapes pour s'assurer que vous pouvez commencer à utiliser la bibliothèque de manière efficace. Voici un guide étape par étape :

  1. Créez un nouveau projet Python dans Python et créez un environnement virtuel ou utilisez un interprète existant.

  2. Installez IronPDF à l'aide du terminal de ligne de commande en exécutant la commande suivante dans le terminal :
 pip install ironpdf

Comment extraire des données de facture depuis un PDF en Python, Figure 1 : IronPDF étant installé depuis la ligne de commande

Installation d'IronPDF depuis la ligne de commande

3. Extraire des données d'une facture à l'aide d'IronPDF

Cette section montrera comment extraire des données du format de facture et du format de sortie en utilisant la bibliothèque Python IronPDF. Le code ci-dessous extrait toutes les données de la facture et les imprime dans la console.

Exemple de facture

Comment extraire les données de facture d'un PDF en Python, Figure 2 : L'exemple de facture

L'exemple de facture

from ironpdf import *

pdf = PdfDocument.FromFile("INV_2022_00001.pdf")
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON

Le code ci-dessus charge un fichier PDF spécifique nommé "INV_2022_00001.pdf" en utilisant la méthode PdfDocument.FromFile. Ensuite, il extrait des données sur tout le contenu textuel du document PDF chargé et les stocke dans la variable all_text. Enfin, le texte extrait est imprimé sur la console à l'aide de la fonction print. Essentiellement, ce code automatise le processus d'extraction des données textuelles structurées et des données non structurées d'un fichier PDF, les rendant accessibles pour un traitement ou une analyse plus poussée dans un environnement Python.

3.1. Sortie

Comment extraire les données de facture à partir d'un PDF en Python, Figure 3 : Le texte de la facture envoyé à la console

Le texte de la facture émis à la console

4. Extraire des données spécifiques d'une facture

L'utilisation d'IronPDF pour l'extraction des données des factures est un processus assez facile, comme nous le voyons dans l'exemple ci-dessus. L'extraction de données telles que le numéro de facture et le montant à partir des données de la facture PDF peut être un processus compliqué, mais en utilisant IronPDF et l'aide de la bibliothèque open-source Python re, cela peut être réalisé. Le code ci-dessous extrait les données des factures PDF et les imprime dans la console.

from ironpdf import *
import re

invoice_number_pattern = r"Invoice\s+(INV/\d{4}/\d{5})"
amount_pattern = r"Total\s+\$\s*([\d,.]+(?:\.\d{2})?)"
pdf = PdfDocument.FromFile("INV_2022_00001.pdf")
all_text = pdf.ExtractAllText()
invoice_number_match = re.search(invoice_number_pattern, all_text)
amount_match = re.search(amount_pattern, all_text)
invoice_number = invoice_number_match.group(1)
if invoice_number_match else "Not found"
amount = amount_match.group(1) if amount_match else "Not found"
print('Invoice Number:' + invoice_number + '\n Amount:$' + amount)
PYTHON

Cet extrait de code utilise Python et la bibliothèque IronPDF pour extraire des données d'un document PDF. Il commence par importer les bibliothèques nécessaires et définit des modèles d'expressions régulières pour identifier un numéro de facture et un montant total dans le contenu textuel du PDF. Le code charge ensuite le PDF cible, en extrait tout le texte et recherche les correspondances avec les motifs définis.

Si des correspondances sont trouvées, il enregistre les valeurs correspondantes pour le numéro et le montant de la facture ; sinon, il attribue "Non trouvé". Enfin, le script et le fichier de sortie impriment le numéro de facture extrait et le montant à la console, offrant une méthode simplifiée pour automatiser l'extraction de données spécifiques à partir de documents PDF, une tâche couramment rencontrée dans diverses applications de traitement de données et de comptabilité.

4.1. Sortie

Comment extraire les données de facture à partir d'un PDF en Python, Figure 4 : Le texte de sortie

Le texte de sortie

5. Conclusion

Dans le paysage commercial actuel, qui évolue rapidement, Python se présente comme un allié redoutable pour les organisations qui cherchent à rationaliser leurs opérations financières en automatisant l'extraction de données cruciales à partir de factures PDF. En exploitant les capacités de Python et la bibliothèque IronPDF, les entreprises peuvent réduire considérablement la saisie manuelle des données, atténuer les erreurs, gagner du temps et améliorer la productivité globale dans le processus comptable de gestion des factures. IronPDF, avec ses fonctions polyvalentes, telles que la génération de PDF, la conversion de HTML en PDF, l'édition de PDF, la fusion, la division, la gestion de formulaires, les signatures numériques et l'extraction précise de données, apparaît comme un outil puissant pour ces tâches.

En suivant des procédures de configuration simples, les développeurs Python peuvent rapidement intégrer IronPDF à leurs projets, révolutionnant ainsi leurs flux de traitement des factures et faisant de l'extraction de données à partir des factures un processus transparent et efficace. L'exemple de code d'extraction de données utilisant IronPDF peut être trouvé à partir de la exemple de code détaillé. Le tutoriel complet sur l'extraction de données utilisant IronPDF for Python est disponible sur le suivantTutoriel Pythonet pour l'extraction de factures à l'aide de C#, visitez le siteTutoriel IronOCR.

< PRÉCÉDENT
Comment analyser un fichier PDF en Python
SUIVANT >
Comment convertir une image en PDF en Python

Prêt à commencer ? Version : 2024.11.1 vient de paraître

Installation gratuite de pip Voir les licences > ;