VERWENDUNG VON IRONPDF FOR PYTHON

Extrahieren von Rechnungsdaten aus PDF in Python

Regan Pun

12. September 2023

Aktualisiert 28. September 2024

Teilen Sie:

Dieser Artikel behandelt, wie Sie mit der IronPDF-Bibliothek für Python Textdaten aus PDF-Rechnungsdateien extrahieren können.

Extrahieren von Rechnungsdaten aus PDF-Dateien in Python

Installieren Sie die Python-Bibliothek zur Extraktion von Daten aus PDF-Rechnungen.
Verwenden Sie die Methode PdfDocument.FromFile, um eine PDF-Datei zu öffnen.
Extrahieren Sie alle Daten aus der Rechnung mit der Methode "ExtractAllText".
Verwenden Sie die Methode "print", um alle aus der Rechnung extrahierten Daten zu drucken.
Extrahieren Sie spezifische Daten aus Rechnungsdaten.

1. IronPDF

IronPDF for Python ist eine robuste Bibliothek für Python, die als Brücke zwischen Python-Anwendungen und PDF-Dokumenten dient. Dieses vielseitige Werkzeug bietet Entwicklern die Möglichkeit, in ihren Python-Projekten mühelos PDF-Dateien zu erstellen, zu bearbeiten und mit ihnen zu interagieren. Hier sind einige der herausragenden Funktionen, die IronPDF zu einer wertvollen Bereicherung machen:

PDF-Erstellung:IronPDF ermöglicht die dynamische Erstellung von PDF-Dateien von Grund auf, sodass Entwickler programmatisch PDFs mit benutzerdefiniertem Inhalt, Styling und Layout erstellen können.
HTML zu PDF-Konvertierung:Es kann HTML-Inhalte, einschließlich Webseiten, in hochwertige PDFs umwandeln, wobei das Layout und die Formatierung des ursprünglichen HTML beibehalten werden, was besonders nützlich für das Erstellen von Berichten und Dokumentationen ist.
PDF-Bearbeitung:Entwickler können vorhandene PDFs einfach bearbeiten, indem sie Text, Bilder und interaktive Elemente hinzufügen, ändern oder entfernen, was es zu einem leistungsstarken Werkzeug für die Dokumentbearbeitung macht.
PDF-Zusammenführung und -Trennung: IronPDF ermöglicht Ihnen,mehrere PDF-Dokumente zusammenführenin eine einzelne Datei odersplit a PDF file into multiple files, die Flexibilität bei der Verwaltung großer PDF-Sammlungen bietet.
PDF-Formulare:Es unterstützt die Erstellung und das Ausfüllen von interaktiven PDF-Formularen, was es ideal für Anwendungen macht, die Benutzereingaben und Datenerfassung erfordern.
Digitale Signaturen:Sie können digitale Signaturen zu PDF-Dokumenten hinzufügen, um die Integrität und Authentizität Ihrer Dateien zu gewährleisten, was für rechtliche und Sicherheitszwecke von entscheidender Bedeutung ist.
PDF-Datenextraktion:IronPDF bietet Extraktionsfähigkeiten, um Informationen in PDFs zu schützen.

2. Einrichten der Umgebung

Das Einrichten der Umgebung für IronPDF for Python erfordert einige Schritte, um sicherzustellen, dass Sie die Bibliothek effektiv nutzen können. Hier finden Sie eine schrittweise Anleitung:

Erstellen Sie ein neues Python-Projekt in PyCharm und erstellen Sie eine virtuelle Umgebung oder verwenden Sie einen vorhandenen Interpreter.
Installieren Sie IronPDF über die Befehlszeile, indem Sie den folgenden Befehl im Terminal ausführen:

 pip installieren ironpdf

So extrahieren Sie Rechnungsdaten aus PDF in Python, Abbildung 1: IronPDF wird über die Befehlszeile installiert

IronPDF von der Kommandozeile aus installieren

3. Extrahieren von Daten aus Rechnungen mit IronPDF

In diesem Abschnitt wird gezeigt, wie Daten aus dem Rechnungsformat und dem Ausgabeformat mit der Python-Bibliothek IronPDF extrahiert werden können. Der folgende Code extrahiert alle Daten aus der Rechnung und gibt sie in der Konsole aus.

Beispiel-Rechnung

Wie man Rechnungsdaten aus PDF in Python extrahiert, Abbildung 2: Das Musterrechnung

Die Musterrechnung

from ironpdf import *

pdf = PdfDocument.FromFile("INV_2022_00001.pdf")
all_text = pdf.ExtractAllText()
print(all_text)

from ironpdf import *

pdf = PdfDocument.FromFile("INV_2022_00001.pdf")
all_text = pdf.ExtractAllText()
print(all_text)

PYTHON

Der obige Code lädt eine bestimmte PDF-Datei mit dem Namen "INV_2022_00001.pdf" mit Hilfe der Methode PdfDocument.FromFile. Anschließend extrahiert es Daten über den gesamten Textinhalt aus dem geladenen PDF-Dokument und speichert sie in der Variablen all_text. Schließlich wird der extrahierte Text mit der Funktion print auf der Konsole ausgegeben. Im Wesentlichen automatisiert dieser Code den Prozess der Extraktion von strukturierten und unstrukturierten Textdaten aus einer PDF-Datei und macht sie für die weitere Verarbeitung oder Analyse in einer Python-Umgebung zugänglich.

3.1. Ausgabe

So extrahieren Sie Rechnungsdaten aus PDF in Python, Abbildung 3: Der Text der Rechnung wird auf die Konsole ausgegeben

Der Text von der Rechnungsausgabe in die Konsole

4. Bestimmte Daten aus der Rechnung extrahieren

Mit IronPDF ist die Extraktion von Rechnungsdaten ein recht einfacher Prozess, wie wir im obigen Beispiel sehen. Das Extrahieren von Daten wie Rechnungsnummer und Betrag aus den PDF-Rechnungsdaten kann ein kniffliger Prozess sein, aber mit IronPDF und Hilfe der Python Open-Source-Bibliothek re kann es erreicht werden. Der folgende Code extrahiert Daten aus PDF-Rechnungen und druckt sie in der Konsole aus.

from ironpdf import *
import re

invoice_number_pattern = r"Invoice\s+(INV/\d{4}/\d{5})"
amount_pattern = r"Total\s+\$\s*([\d,.]+(?:\.\d{2})?)"
pdf = PdfDocument.FromFile("INV_2022_00001.pdf")
all_text = pdf.ExtractAllText()
invoice_number_match = re.search(invoice_number_pattern, all_text)
amount_match = re.search(amount_pattern, all_text)
invoice_number = invoice_number_match.group(1)
if invoice_number_match else "Not found"
amount = amount_match.group(1) if amount_match else "Not found"
print('Invoice Number:' + invoice_number + '\n Amount:$' + amount)

from ironpdf import *
import re

invoice_number_pattern = r"Invoice\s+(INV/\d{4}/\d{5})"
amount_pattern = r"Total\s+\$\s*([\d,.]+(?:\.\d{2})?)"
pdf = PdfDocument.FromFile("INV_2022_00001.pdf")
all_text = pdf.ExtractAllText()
invoice_number_match = re.search(invoice_number_pattern, all_text)
amount_match = re.search(amount_pattern, all_text)
invoice_number = invoice_number_match.group(1)
if invoice_number_match else "Not found"
amount = amount_match.group(1) if amount_match else "Not found"
print('Invoice Number:' + invoice_number + '\n Amount:$' + amount)

PYTHON

Dieses Code-Snippet verwendet Python und die IronPDF-Bibliothek, um Daten aus einem PDF-Dokument zu extrahieren. Es beginnt mit dem Import der erforderlichen Bibliotheken und der Definition von Mustern für reguläre Ausdrücke zur Identifizierung einer Rechnungsnummer und eines Gesamtbetrags innerhalb des Textinhalts der PDF-Datei. Der Code lädt dann die Ziel-PDF-Datei, extrahiert den gesamten Text und sucht dann nach Übereinstimmungen mit den definierten Mustern.

Bei erfolgreichen Übereinstimmungen werden die entsprechenden Werte für die Rechnungsnummer und den Betrag gespeichert; andernfalls wird "Nicht gefunden" zugewiesen. Schließlich drucken das Skript und die Ausgabedatei die extrahierte Rechnungsnummer und den Betrag in die Konsole, wodurch eine effiziente Methode zur Automatisierung der Extraktion spezifischer Daten aus PDF-Dokumenten geboten wird, eine Aufgabe, die häufig in verschiedenen Datenverarbeitungs- und Buchhaltungsanwendungen vorkommt.

4.1. Ausgabe

So extrahieren Sie Rechnungsdaten aus PDF in Python, Abbildung 4: Der Ausgabetext

Der Ausgabetext

5. Schlussfolgerung

In der heutigen schnelllebigen Geschäftswelt ist Python ein hervorragender Verbündeter für Unternehmen, die ihre Finanzvorgänge durch die Automatisierung der Extraktion wichtiger Daten aus PDF-Rechnungen rationalisieren möchten. Durch die Nutzung der Fähigkeiten von Python und der IronPDF-Bibliothek können Unternehmen die manuelle Dateneingabe erheblich reduzieren, Fehler minimieren, Zeit sparen und die Gesamtproduktivität bei der Verwaltung von Rechnungen steigern. IronPDF ist mit seinen vielseitigen Funktionen wie PDF-Erzeugung, HTML-zu-PDF-Konvertierung, PDF-Bearbeitung, Zusammenführung, Aufteilung, Formularverarbeitung, digitale Signaturen und genaue Datenextraktion ein leistungsstarkes Werkzeug für diese Aufgaben.

Python-Entwickler können IronPDF durch einfache Einrichtungsprozeduren schnell in ihre Projekte integrieren und so ihre Arbeitsabläufe bei der Rechnungsverarbeitung revolutionieren und die Datenextraktion aus Rechnungen zu einem nahtlosen und effizienten Prozess machen. Das Codebeispiel zur Datenauswertung mit IronPDF finden Sie imdetailliertes Codebeispiel. Das vollständige Tutorial zur Datenauswertung mit IronPDF for Python ist unter folgendem verfügbarPython-Tutorialund für die Extraktion von Rechnungen mit C#, besuchen SieIronOCR-Tutorial.

Regan Pun

Jetzt mit dem Ingenieurteam chatten

Software-Ingenieur

Regan schloss sein Studium an der University of Reading mit einem BA in Elektrotechnik ab. Bevor er zu Iron Software kam, konzentrierte er sich in seinen früheren Jobs auf einzelne Aufgaben. Was ihm bei Iron Software am meisten Spaß macht, ist das Spektrum der Aufgaben, die er übernehmen kann, sei es im Vertrieb, im technischen Support, in der Produktentwicklung oder im Marketing. Es macht ihm Spaß, die Art und Weise zu verstehen, wie Entwickler die Bibliothek von Iron Software nutzen, und dieses Wissen zu nutzen, um die Dokumentation und die Produkte kontinuierlich zu verbessern.

< PREVIOUS
Wie man eine PDF-Datei in Python analysiert

NÄCHSTES >
Konvertierung von Bildern in PDF in Python