Zum Fußzeileninhalt springen
VERWENDUNG VON IRONPDF FüR PYTHON

Wie man Rechnungsdaten aus einer PDF in Python extrahiert

In diesem Artikel wird erläutert, wie Sie mit der IronPDF-Bibliothek für Python Textdaten aus PDF-Rechnungen extrahieren können.

So extrahieren Sie Rechnungsdaten aus PDF in Python

  1. Installieren Sie die Python-Bibliothek zur Extraktion von Daten aus PDF-Rechnungen.
  2. Verwenden Sie die PdfDocument.FromFile-Methode, um eine PDF-Datei zu öffnen.
  3. Extrahieren Sie alle Daten aus der Rechnung mit der ExtractAllText-Methode.
  4. Verwenden Sie die print-Methode, um alle extrahierten Daten aus der Rechnung zu drucken.
  5. Extrahieren Sie spezifische Daten aus den Rechnungsdaten.

1. IronPDF

IronPDF für Python ist eine robuste Bibliothek, die als Brücke zwischen Python-Anwendungen und PDF-Dokumenten dient. Dieses vielseitige Werkzeug bietet Entwicklern die Möglichkeit, PDF-Dateien mühelos in ihren Python-Projekten zu erstellen, zu manipulieren und mit ihnen zu interagieren. Hier sind einige der herausragenden Funktionen, die IronPDF zu einer wertvollen Ressource machen:

  1. PDF-Erzeugung: IronPDF ermöglicht die dynamische Erstellung von PDF-Dateien von Grund auf, sodass Entwickler PDF-Dokumente mit benutzerdefiniertem Inhalt, Styling und Layout programmgesteuert erstellen können.
  2. HTML-zu-PDF-Konvertierung: Es kann HTML-Inhalte, einschließlich Webseiten, in hochwertige PDFs umwandeln und dabei das Layout und das Design des ursprünglichen HTML beibehalten, was besonders nützlich für die Erstellung von Berichten und Dokumentationen ist.
  3. PDF-Bearbeitung: Entwickler können bestehende PDFs einfach bearbeiten, indem sie Text, Bilder und interaktive Elemente hinzufügen, ändern oder entfernen, was es zu einem leistungsstarken Werkzeug für die Dokumentmanipulation macht.
  4. PDF Merging and Splitting: IronPDF allows you to merge multiple PDF documents into a single file or split a PDF into multiple files, providing flexibility in managing large sets of PDFs.
  5. PDF-Formulare: Es unterstützt die Erstellung und das Ausfüllen von interaktiven PDF-Formularen, was es ideal für Anwendungen macht, die Benutzereingaben und Datenerfassung erfordern.
  6. Digitale Signaturen: Sie können digitale Signaturen zu PDF-Dokumenten hinzufügen, um die Integrität und Authentizität Ihrer Dateien zu gewährleisten, was für rechtliche und sicherheitsrelevante Zwecke entscheidend ist.
  7. PDF-Datenextraktion: IronPDF bietet Extraktionsmöglichkeiten, um Informationen innerhalb von PDFs zu schützen.

2. Einrichten der Umgebung

Das Einrichten der Umgebung für IronPDF in Python umfasst einige Schritte, um sicherzustellen, dass Sie die Bibliothek effektiv nutzen können. Hier ist eine Schritt-für-Schritt-Anleitung:

  1. Erstellen Sie ein neues Python-Projekt in PyCharm und erstellen Sie eine virtuelle Umgebung oder verwenden Sie einen bestehenden Interpreter.
  2. Installieren Sie IronPDF über das Befehlszeilenterminal, indem Sie den folgenden Befehl im Terminal ausführen:
pip install ironpdf

Wie man Rechnungsdaten aus PDF in Python extrahiert, Abbildung 1: IronPDF wird vom Kommandozeilen-Terminal installiert IronPDF wird vom Kommandozeilen-Terminal installiert

3. Daten aus Rechnungen mit IronPDF extrahieren

In diesem Abschnitt sehen wir, wie Daten aus dem Rechnungsformat und dem Ausgabeformat unter Verwendung der Python-Bibliothek IronPDF extrahiert werden. Der untenstehende Code extrahiert alle Daten aus der Rechnung und gibt sie in der Konsole aus.

Beispielformular

Wie man Rechnungsdaten aus PDF in Python extrahiert, Abbildung 2: Die Beispielrechnung Die Musterrechnung

from ironpdf import PdfDocument

# Load the PDF using the PdfDocument.FromFile method
pdf = PdfDocument.FromFile("INV_2022_00001.pdf")

# Extract all text from the PDF
all_text = pdf.ExtractAllText()

# Print the extracted text
print(all_text)
from ironpdf import PdfDocument

# Load the PDF using the PdfDocument.FromFile method
pdf = PdfDocument.FromFile("INV_2022_00001.pdf")

# Extract all text from the PDF
all_text = pdf.ExtractAllText()

# Print the extracted text
print(all_text)
PYTHON

Der obige Code lädt eine spezifische PDF-Datei mit dem Namen "INV_2022_00001.pdf" mit der PdfDocument.FromFile-Methode. Anschließend extrahiert es den gesamten Textinhalt aus dem geladenen PDF-Dokument und speichert ihn in der Variable all_text. Schließlich wird der extrahierte Text mit der Funktion print in der Konsole ausgegeben. Im Wesentlichen automatisiert dieser Code den Prozess der Extraktion von strukturierten und unstrukturierten Textdaten aus einer PDF-Datei, was sie für die weitere Verarbeitung oder Analyse in einer Python-Umgebung zugänglich macht.

3.1. Ausgabe

Wie man Rechnungsdaten aus PDF in Python extrahiert, Abbildung 3: Der Text aus der Rechnungsausgabe in der Konsole Der Text aus der Rechnungsausgabe in der Konsole

4. Spezifische Daten aus Rechnungen extrahieren

Die Verwendung von IronPDF zur Extraktion von Rechnungsdaten ist ein recht einfacher Prozess. Die Extraktion von Daten wie Rechnungsnummer und Betrag aus den PDF-Rechnungsdaten kann ein schwieriger Prozess sein, aber in Kombination mit der Python-Open-Source-Bibliothek re kann dies erreicht werden. Der untenstehende Code extrahiert spezifische Daten aus PDF-Rechnungen und gibt sie in der Konsole aus.

from ironpdf import PdfDocument
import re

# Define regex patterns to find invoice number and amount
invoice_number_pattern = r"Invoice\s+(INV/\d{4}/\d{5})"
amount_pattern = r"Total\s+\$\s*([\d,.]+(?:\.\d{2})?)"

# Load the PDF using the PdfDocument.FromFile method
pdf = PdfDocument.FromFile("INV_2022_00001.pdf")

# Extract all text from the PDF
all_text = pdf.ExtractAllText()

# Search for the invoice number and amount in text
invoice_number_match = re.search(invoice_number_pattern, all_text)
amount_match = re.search(amount_pattern, all_text)

# Extract the matching groups if matches are found
invoice_number = invoice_number_match.group(1) if invoice_number_match else "Not found"
amount = amount_match.group(1) if amount_match else "Not found"

# Print the extracted data
print('Invoice Number: ' + invoice_number + '\nAmount: $' + amount)
from ironpdf import PdfDocument
import re

# Define regex patterns to find invoice number and amount
invoice_number_pattern = r"Invoice\s+(INV/\d{4}/\d{5})"
amount_pattern = r"Total\s+\$\s*([\d,.]+(?:\.\d{2})?)"

# Load the PDF using the PdfDocument.FromFile method
pdf = PdfDocument.FromFile("INV_2022_00001.pdf")

# Extract all text from the PDF
all_text = pdf.ExtractAllText()

# Search for the invoice number and amount in text
invoice_number_match = re.search(invoice_number_pattern, all_text)
amount_match = re.search(amount_pattern, all_text)

# Extract the matching groups if matches are found
invoice_number = invoice_number_match.group(1) if invoice_number_match else "Not found"
amount = amount_match.group(1) if amount_match else "Not found"

# Print the extracted data
print('Invoice Number: ' + invoice_number + '\nAmount: $' + amount)
PYTHON

Dieses Codebeispiel verwendet Python und die IronPDF-Bibliothek, um Daten aus einem PDF-Dokument zu extrahieren. Es beginnt mit dem Importieren der erforderlichen Bibliotheken und dem Definieren von regulären Ausdrucksmustern zur Identifizierung einer Rechnungsnummer und eines Gesamtbetrags innerhalb des Textinhalts des PDFs. Der Code lädt dann das Ziel-PDF, extrahiert den gesamten Text und sucht nach Übereinstimmungen der definierten Muster.

Wenn erfolgreiche Übereinstimmungen gefunden werden, speichert er die entsprechenden Werte für die Rechnungsnummer und den Betrag; Andernfalls wird "Nicht gefunden" zugewiesen. Schließlich druckt das Skript die extrahierte Rechnungsnummer und den Betrag in der Konsole aus und bietet einen einfachen Weg zur Automatisierung des Extraktionsprozesses spezifischer Daten aus PDF-Dokumenten, eine Aufgabe, die in verschiedenen Datenverarbeitungs- und Buchhaltungsanwendungen häufig vorkommt.

4.1. Ausgabe

Wie man Rechnungsdaten aus PDF in Python extrahiert, Abbildung 4: Der Ausgabetext Der Ausgabetext

5. Fazit

In der heutigen schnelllebigen Geschäftswelt ist Python ein mächtiger Verbündeter für Unternehmen, die ihre Finanzprozesse durch die Automatisierung der Extraktion wichtiger Daten aus PDF-Rechnungen rationalisieren möchten. Durch die Nutzung der Möglichkeiten von Python und der IronPDF-Bibliothek können Unternehmen die manuelle Dateneingabe erheblich reduzieren, Fehler minimieren, Zeit sparen und die Produktivität im Buchhaltungsprozess beim Verwalten von Rechnungen steigern. IronPDF, mit seinen vielseitigen Funktionen wie PDF-Erstellung, HTML-zu-PDF-Konvertierung, PDF-Bearbeitung, Zusammenführung, Aufteilung, Formularverwaltung, digitale Signaturen und genaue Datenextraktion, erweist sich als leistungsstarkes Werkzeug für diese Aufgaben.

Indem sie einfache Einrichtungsverfahren befolgen, können Python-Entwickler IronPDF schnell in ihre Projekte integrieren, ihre Rechnungsverarbeitungs-Workflows revolutionieren und die Datenauswertung aus Rechnungen zu einem reibungslosen und effizienten Prozess machen. Das Codebeispiel zur Datenextraktion mit IronPDF finden Sie in den detaillierten Codebeispielen. The complete tutorial on data extraction using IronPDF for Python is available on the following Python tutorial, and for Invoice Extraction using C#, visit IronOCR tutorial.

Häufig gestellte Fragen

Wie kann ich Text aus einer PDF-Rechnung mit Python extrahieren?

Sie können die Methode PdfDocument.FromFile von IronPDF verwenden, um das PDF zu laden, und die Methode ExtractAllText, um alle Textinhalte aus dem Dokument abzurufen.

Wie installiere ich IronPDF für Python?

Installieren Sie IronPDF mit dem Python-Paketmanager pip mit dem Befehl pip install ironpdf.

Kann ich mit Python spezifische Daten wie Rechnungsnummern aus PDFs extrahieren?

Ja, indem Sie IronPDF in Kombination mit der re-Bibliothek von Python verwenden, können Sie Regex-Muster definieren, um spezifische Daten wie Rechnungsnummern und Beträge aus PDF-Rechnungen zu extrahieren.

Welche Funktionen bietet IronPDF für Python?

IronPDF bietet Funktionen wie PDF-Erstellung, HTML-zu-PDF-Konvertierung, Bearbeitung, Merging, Splitting, Formularbearbeitung, digitale Signaturen und Datenauszug.

Kann IronPDF HTML in PDF in Python umwandeln?

Ja, IronPDF kann HTML-Inhalte, einschließlich Webseiten, in hochwertige PDFs umwandeln und dabei das Layout und Styling des ursprünglichen HTML beibehalten.

Wie verbessert IronPDF die Produktivität bei der Extraktion von Rechnungsdaten?

IronPDF automatisiert die Extraktion von Daten aus PDF-Rechnungen, reduziert manuelle Eingaben und Fehler und spart so Zeit und steigert die Produktivität in Finanzoperationen.

Ist es möglich, PDF-Dokumente mit IronPDF in Python zu bearbeiten?

Ja, IronPDF erlaubt Entwicklern, bestehende PDFs zu bearbeiten, indem sie Text, Bilder und interaktive Elemente hinzufügen, ändern oder entfernen.

Kann IronPDF PDF-Dokumente in Python zusammenführen oder trennen?

Ja, IronPDF bietet Funktionen, um mehrere PDF-Dokumente zu einer einzigen Datei zu verbinden oder ein PDF in mehrere Dateien aufzuteilen.

Unterstützt IronPDF das Hinzufügen digitaler Signaturen zu PDFs in Python?

Ja, IronPDF ermöglicht es Ihnen, digitale Signaturen zu PDF-Dokumenten hinzuzufügen, um die Integrität und Authentizität Ihrer Dateien zu gewährleisten.

Warum wird IronPDF als robustes Werkzeug für Python-Entwickler angesehen?

IronPDF wird als robust angesehen, wegen seiner umfassenden Fähigkeiten im Umgang mit verschiedenen PDF-Operationen, einschließlich Erstellung, Konvertierung, Bearbeitung und Datenauszug, die für Entwickler unerlässlich sind.

Curtis Chau
Technischer Autor

Curtis Chau hat einen Bachelor-Abschluss in Informatik von der Carleton University und ist spezialisiert auf Frontend-Entwicklung mit Expertise in Node.js, TypeScript, JavaScript und React. Leidenschaftlich widmet er sich der Erstellung intuitiver und ästhetisch ansprechender Benutzerschnittstellen und arbeitet gerne mit modernen Frameworks sowie der Erstellung gut strukturierter, optisch ansprechender ...

Weiterlesen