VERWENDUNG VON IRONPDF FOR PYTHON

Extrahieren von Rechnungsdaten aus PDF in Python

In diesem Artikel erfahren Sie, wie Sie mithilfe der IronPDF-Bibliothek für Python Textdaten aus Rechnungs-PDF-Dateien extrahieren können.

Extrahieren von Rechnungsdaten aus PDF-Dateien in Python

  1. Installieren Sie die Python-Bibliothek zur Extraktion von Daten aus PDF-Rechnungen.

  2. Verwenden Sie die PdfDocument.FromFile-Methode, um eine PDF-Datei zu öffnen.

  3. Extrahieren Sie alle Daten aus der Rechnung mit der ExtractAllText-Methode.

  4. Verwenden Sie die print-Methode, um alle extrahierten Daten aus der Rechnung zu drucken.

  5. Extrahieren Sie spezifische Daten aus Rechnungsdaten.

1. IronPDF

IronPDF for Python ist eine robuste Bibliothek für Python, die als Brücke zwischen Python-Anwendungen und PDF-Dokumenten dient. Dieses vielseitige Werkzeug bietet Entwicklern die Möglichkeit, in ihren Python-Projekten mühelos PDF-Dateien zu erstellen, zu bearbeiten und mit ihnen zu interagieren. Hier sind einige der herausragenden Funktionen, die IronPDF zu einer wertvollen Bereicherung machen:

  1. PDF-Erstellung: IronPDF ermöglicht die dynamische Erstellung von PDF-Dateien von Grund auf, sodass Entwickler programmatisch PDFs mit benutzerdefiniertem Inhalt, Stil und Layout erstellen können.

  2. HTML-zu-PDF-Konvertierung: Es kann HTML-Inhalte, einschließlich Webseiten, in hochwertige PDFs umwandeln, wobei das Layout und die Formatierung des ursprünglichen HTML erhalten bleiben, was besonders nützlich für die Erstellung von Berichten und Dokumentationen ist.

  3. PDF-Bearbeitung: Entwickler können vorhandene PDFs leicht bearbeiten, indem sie Text, Bilder und interaktive Elemente hinzufügen, ändern oder entfernen, was es zu einem leistungsstarken Werkzeug für die Dokumentenbearbeitung macht.

  4. PDF-Zusammenfügen und -Teilen: IronPDF ermöglicht es Ihnen, mehrere PDF-Dokumente zu einem einzigen Dokument zusammenzuführen oder ein PDF in mehrere Dateien aufzuteilen, und bietet so Flexibilität beim Verwalten großer PDF-Sammlungen.

  5. PDF-Formulare: Es unterstützt die Erstellung und das Ausfüllen interaktiver PDF-Formulare, was es ideal für Anwendungen macht, die Benutzereingaben und Datenerfassung erfordern.

  6. Digitale Signaturen: Sie können digitale Signaturen zu PDF-Dokumenten hinzufügen, um die Integrität und Authentizität Ihrer Dateien zu gewährleisten, was für rechtliche und Sicherheitszwecke von entscheidender Bedeutung ist.

  7. PDF-Datenextraktion: IronPDF bietet Extraktionsfunktionen, um Informationen in PDFs zu schützen.

2. Einrichten der Umgebung

Das Einrichten der Umgebung für IronPDF for Python erfordert einige Schritte, um sicherzustellen, dass Sie die Bibliothek effektiv nutzen können. Hier finden Sie eine schrittweise Anleitung:

  1. Erstellen Sie ein neues Python-Projekt in PyCharm und erstellen Sie eine virtuelle Umgebung oder verwenden Sie einen vorhandenen Interpreter.

  2. Installieren Sie IronPDF über die Befehlszeile, indem Sie den folgenden Befehl im Terminal ausführen:
 pip installieren ironpdf

So extrahieren Sie Rechnungsdaten aus PDF in Python, Abbildung 1: IronPDF wird über die Befehlszeile installiert

Installation von IronPDF über die Befehlszeile

3. Extrahieren von Daten aus Rechnungen mit IronPDF

In diesem Abschnitt wird gezeigt, wie Daten aus dem Rechnungsformat und dem Ausgabeformat mit der Python-Bibliothek IronPDF extrahiert werden können. Der folgende Code extrahiert alle Daten aus der Rechnung und gibt sie in der Konsole aus.

Beispiel-Rechnung

So extrahieren Sie Rechnungsdaten aus PDF in Python, Abbildung 2: Das Musterrechnungsdokument

Die Musterrechnung

from ironpdf import *

pdf = PdfDocument.FromFile("INV_2022_00001.pdf")
all_text = pdf.ExtractAllText()
print(all_text)
python
PYTHON

Der obige Code lädt eine bestimmte PDF-Datei namens "INV_2022_00001.pdf" mit der Methode PdfDocument.FromFile. Anschließend extrahiert es Daten zu allen Textinhalten aus dem geladenen PDF-Dokument und speichert sie in der Variable all_text. Schließlich wird der extrahierte Text mit der print-Funktion auf der Konsole ausgegeben. Im Wesentlichen automatisiert dieser Code den Prozess der Extraktion von strukturierten und unstrukturierten Textdaten aus einer PDF-Datei und macht sie für die weitere Verarbeitung oder Analyse in einer Python-Umgebung zugänglich.

3.1. Ausgabe

So extrahieren Sie Rechnungsdaten aus PDF in Python, Abbildung 3: Der Text aus der Rechnung wird auf die Konsole ausgegeben

Der Text aus der Rechnungsanzeige auf der Konsole

4. Bestimmte Daten aus der Rechnung extrahieren

Mit IronPDF ist die Extraktion von Rechnungsdaten ein recht einfacher Prozess, wie wir im obigen Beispiel sehen. Die Extraktion von Daten wie Rechnungsnummer und Betrag aus den PDF-Rechnungsdaten kann ein kniffliger Prozess sein, aber mithilfe von IronPDF und Unterstützung durch die Python Open-Source-Bibliothek re kann dies erreicht werden. Der folgende Code extrahiert Daten aus PDF-Rechnungen und druckt sie in der Konsole aus.

from ironpdf import *
import re

invoice_number_pattern = r"Invoice\s+(INV/\d{4}/\d{5})"
amount_pattern = r"Total\s+\$\s*([\d,.]+(?:\.\d{2})?)"
pdf = PdfDocument.FromFile("INV_2022_00001.pdf")
all_text = pdf.ExtractAllText()
invoice_number_match = re.search(invoice_number_pattern, all_text)
amount_match = re.search(amount_pattern, all_text)
invoice_number = invoice_number_match.group(1)
if invoice_number_match else "Not found"
amount = amount_match.group(1) if amount_match else "Not found"
print('Invoice Number:' + invoice_number + '\n Amount:$' + amount)
python
PYTHON

Dieses Code-Snippet verwendet Python und die IronPDF-Bibliothek, um Daten aus einem PDF-Dokument zu extrahieren. Es beginnt mit dem Import der erforderlichen Bibliotheken und der Definition von Mustern für reguläre Ausdrücke zur Identifizierung einer Rechnungsnummer und eines Gesamtbetrags innerhalb des Textinhalts der PDF-Datei. Der Code lädt dann die Ziel-PDF-Datei, extrahiert den gesamten Text und sucht dann nach Übereinstimmungen mit den definierten Mustern.

Bei erfolgreichen Übereinstimmungen werden die entsprechenden Werte für die Rechnungsnummer und den Betrag gespeichert; andernfalls wird "Nicht gefunden" zugewiesen. Schließlich drucken das Skript und die Ausgabedatei die extrahierte Rechnungsnummer und den Betrag in die Konsole, wodurch eine effiziente Methode zur Automatisierung der Extraktion spezifischer Daten aus PDF-Dokumenten geboten wird, eine Aufgabe, die häufig in verschiedenen Datenverarbeitungs- und Buchhaltungsanwendungen vorkommt.

4.1. Ausgabe

Wie man Rechnungsdaten aus PDF in Python extrahiert, Abbildung 4: Der Ausgabetext

Der Ausgabetext

5. Schlussfolgerung

In der heutigen schnelllebigen Geschäftswelt ist Python ein hervorragender Verbündeter für Unternehmen, die ihre Finanzvorgänge durch die Automatisierung der Extraktion wichtiger Daten aus PDF-Rechnungen rationalisieren möchten. Durch die Nutzung der Fähigkeiten von Python und der IronPDF-Bibliothek können Unternehmen die manuelle Dateneingabe erheblich reduzieren, Fehler minimieren, Zeit sparen und die Gesamtproduktivität bei der Verwaltung von Rechnungen steigern. IronPDF ist mit seinen vielseitigen Funktionen wie PDF-Erzeugung, HTML-zu-PDF-Konvertierung, PDF-Bearbeitung, Zusammenführung, Aufteilung, Formularverarbeitung, digitale Signaturen und genaue Datenextraktion ein leistungsstarkes Werkzeug für diese Aufgaben.

Python-Entwickler können IronPDF durch einfache Einrichtungsprozeduren schnell in ihre Projekte integrieren und so ihre Arbeitsabläufe bei der Rechnungsverarbeitung revolutionieren und die Datenextraktion aus Rechnungen zu einem nahtlosen und effizienten Prozess machen. Das Beispiel zur Datenextraktion mit IronPDF finden Sie im detaillierten Code-Beispiel. Das vollständige Tutorial zur Datenauswertung mit IronPDF for Python ist im folgenden Python-Tutorial verfügbar, und für die Rechnungsauswertung mit C# besuchen Sie das IronOCR-Tutorial.

Chaknith Bin
Software-Ingenieur
Chaknith arbeitet an IronXL und IronBarcode. Er hat tiefgehende Expertise in C# und .NET und hilft, die Software zu verbessern und Kunden zu unterstützen. Seine Erkenntnisse aus Benutzerinteraktionen tragen zu besseren Produkten, Dokumentation und einem insgesamt besseren Erlebnis bei.
< PREVIOUS
Wie man eine PDF-Datei in Python analysiert
NÄCHSTES >
Konvertierung von Bildern in PDF in Python

Sind Sie bereit, loszulegen? Version: 2025.5 gerade veröffentlicht

Lizenzen anzeigen >