VERWENDUNG VON IRONPDF FOR PYTHON

Wie man in Python eine Tabelle aus einer PDF-Datei extrahiert

Kannapat Udonpant

22. Juli 2023

Aktualisiert 21. September 2024

Teilen Sie:

In diesem Artikel wird gezeigt, wie IronPDF, eine leistungsstarke Bibliothek zur PDF-Verarbeitung, verwendet wird, um mühelos Daten aus komplexen Tabellen in beliebigen PDF-Dateien zu extrahieren.

IronPDF

Python bietet Programmierern im Vergleich zu anderen Sprachen deutlich mehr Flexibilität und ermöglicht es Entwicklern, grafische Benutzeroberflächen einfach und effizient zu gestalten. Daher ist die Einbindung der IronPDF-Bibliothek in Python ein unkomplizierter Prozess. Um schnell und sicher eine voll funktionsfähige grafische Benutzeroberfläche zu erstellen, kann eine Reihe von vorinstallierten Tools wie PyQt, wxWidgets, Kivy und verschiedene andere Pakete und Bibliotheken verwendet werden.

IronPDF vereinfacht Python-Webdesign und -Entwicklung. Das liegt vor allem an der Fülle der verfügbaren Python-Frameworks für die Webentwicklung, wie Django, Flask und Pyramid. Zu den bemerkenswerten Websites und Online-Diensten, die diese Frameworks verwendet haben, gehören Reddit, Mozilla und Spotify.

Wie man in Python eine Tabelle aus einer PDF-Datei extrahiert

Download eines Python-Moduls zum Extrahieren von Tabellen aus PDF-Dateien
Verwenden Sie die FromFile methode zum Importieren der PDF-Datei
Extrahieren Sie Text aus den Tabellen mit der ExtractAllText methode
Iterieren Sie durch den extrahierten Text, um Zeilen aufzuteilen
Ausgabe des extrahierten Textes auf der Konsole oder in einer Textdatei

Merkmale von IronPDF

Nachstehend sind einige Merkmale vonIronPDF:

PDF-Dateien können seinaus einer Vielzahl von Quellen erstellt wie HTML, HTML5, ASP, PHP und mehr. Zusätzlich,bilddateien können in PDF konvertiert werden zusammen mit HTML-Dateien.
IronPDF ermöglicht die Erstellung von interaktiven PDF-Dokumenten. Es bietet Funktionen wie das Teilen und Kombinieren von PDF-Dateien,extraktion von Text und Bildern aus PDF-Dateien,rasterisierung von PDF-Seiten in Bilderkonvertierung von PDF in HTML, Drucken von PDF-Dateien, Ausfüllen und Einreichen von DokumentenInteraktive Formulareundspaltung undzusammenlegung PDF-Dateien.
Mit IronPDF ist es möglich, ein Dokument aus einer URL zu erzeugen. Es unterstützt auch Benutzeragenten, die sich über HTML-Anmeldeformulare, Proxys, Cookies, HTTP-Header, spezielle Netzwerk-Anmeldedaten, Formularvariablen und Benutzeragenten anmelden.
Das IronPDF-Programm ermöglicht die Überprüfung undanmerkung von PDF-Dateien.
IronPDF ermöglicht die Extraktion von Bildern aus Dokumenten.
IronPDF bietet den Benutzern die Möglichkeit, Kopf- und Fußzeilen, Text und Fotos hinzuzufügen,lesezeichen, wasserzeichenund mehr zu Dokumenten.
Mit IronPDF können Sie Seiten in einem neuen oder bestehenden Dokument aufteilen und zusammenführen.
Die Umwandlung von Dokumenten in PDF-Objekte ist auch ohne Acrobat-Viewer möglich.
IronPDF ermöglicht die Erstellung eines PDF-Dokuments aus einer CSS-Datei.
Mit IronPDF können Dokumente mit CSS-Dateien erstellt werden, die Medientyp-Definitionen enthalten.

Python-Umgebung konfigurieren

Einrichtung Python

Stellen Sie sicher, dass Python auf Ihrem Computer installiert ist. Um die aktuellste Version von Python für Ihr Betriebssystem herunterzuladen und einzurichten, besuchen Sie dieoffizielle Python-Website. Sobald Python installiert ist, trennen Sie die Anforderungen für Ihr Projekt ab, indem Sie eine virtuelle Umgebung erstellen. Mit Hilfe des Moduls venv können Sie virtuelle Umgebungen erstellen und verwalten, um Ihrem Konvertierungsprojekt einen übersichtlichen und organisierten Arbeitsbereich zu bieten.

Neues Projekt in PyCharm

Für dieses Tutorial wird PyCharm, eine IDE für die Python-Entwicklung, empfohlen.

Nachdem Sie die PyCharm IDE gestartet haben, wählen Sie "Neues Projekt" aus dem Menü, wie in der Abbildung unten gezeigt.

Wie man in Python eine Tabelle aus einer PDF-Datei extrahiert, Abbildung 1: PyCharm IDE

PyCharm IDE

Wenn Sie "Neues Projekt" wählen, erscheint ein neues Fenster, in dem Sie den Speicherort des Projekts und die Python-Umgebung festlegen können (siehe Abbildung unten).

Wie man in Python eine Tabelle aus einer PDF-Datei extrahiert, Abbildung 2: Erstellen eines neuen Projekts in PyCharm

Erstellen Sie ein neues Projekt in PyCharm

Nachdem Sie den Ort und die Umgebung für das Projekt ausgewählt haben, klicken Sie auf die Schaltfläche Erstellen, um das Projekt zu starten. Python-Dateien können in dem neu gestarteten Fenster geöffnet werden, damit Sie Ihren Code eingeben können. In diesem Handbuch wird Python 3.9 verwendet.

Wie man in Python eine Tabelle aus einer PDF-Datei extrahiert, Abbildung 3: die Haupt-Python-Datei

die Haupt-Python-Datei

IronPDF-Bibliotheksanforderung

IronPDF for Python stützt sich auf .NET 6.0 als Kerntechnologie. Um IronPDF for Python verwenden zu können, muss auf Ihrem Computer daher die .NET 6.0-Laufzeitumgebung installiert sein. Linux- und Mac-Benutzer müssen möglicherweise .NET installieren, bevor sie dieses Python-Modul verwenden können. Laden Sie die erforderliche Laufzeitumgebung von Microsoft herunter.

IronPDF-Bibliothek einrichten

Das Paket "IronPDF" muss installiert werden, um Dateien mit der Erweiterung ".pdf" zu erstellen, zu bearbeiten und zu öffnen. Um das Paket in PyCharm zu installieren, öffnen Sie ein Terminalfenster und geben Sie den folgenden Befehl ein:

 pip installieren ironpdf

Die folgende Abbildung veranschaulicht den Installationsvorgang des Pakets "IronPDF".

Extrahieren von Tabellen aus PDF-Dateien in Python, Abbildung 4: Installieren Sie das IronPDF-Paket

Installieren Sie das IronPDF-Paket

Extrahieren von Tabellendaten aus einer PDF-Datei

Mit der IronPDF for Python-Bibliothek können wir mühelos Daten aus PDF-Dateien extrahieren. IronPDF erleichtert die Analyse von Textdaten und die Extraktion von Tabellen aus PDF-Dateien. Nachfolgend finden Sie einen Beispielcode, der zeigt, wie Daten aus PDF-Tabellen extrahiert werden können, wobei das bereitgestellte Bild als Referenz dient.

Wie man in Python eine Tabelle aus einer PDF-Datei extrahiert, Abbildung 5: Die Beispieldaten aus einer PDF-Datei

Die Beispieldaten aus einer PDF-Datei

from ironpdf import *

pdf = PdfDocument.FromFile("sampleData.pdf")
all_text = pdf.ExtractAllText()
for row in all_text.split("\n"):
    print(row)

from ironpdf import *

pdf = PdfDocument.FromFile("sampleData.pdf")
all_text = pdf.ExtractAllText()
for row in all_text.split("\n"):
    print(row)

PYTHON

Der mitgelieferte Code demonstriert, wie IronPDF mit nur wenigen Zeilen Python-Code Tabellen aus PDF-Dateien extrahieren kann. Zunächst importieren wir die IronPDF-Bibliothek, um auf ihre Funktionalität zuzugreifen und Zugang zu allen IronPDF-Funktionen zu erhalten. Mit Hilfe der Klasse PdfDocument können bestehende PDF-Dateien verarbeitet und verschiedene Operationen mit ihnen durchgeführt werden.

Bei Verwendung der Funktion FromFile ist das Argument zum Laden der PDF-Eingabedatei verfügbar. Anschließend wird die Funktion "ExtractAllText" verwendet, um alle Tabellendaten aus allen Seiten der PDF-Dateien zu extrahieren. Anschließend werden die extrahierten Tabellendaten mit der Funktion Split in mehrere Zeilen aufgeteilt und auf dem Konsolenbildschirm angezeigt.

Wie man in Python eine Tabelle aus einer PDF-Datei extrahiert, Abbildung 6: Die extrahierten Daten

Die extrahierten Daten

In der obigen Ausgabe werden die Daten Zeile für Zeile angezeigt, um zu zeigen, wie Tabellendaten extrahiert werden können. Erfahren Sie mehr über IronPDF durch die Durchsicht derproduktdokumentation.

Schlussfolgerung

Die IronPDF-Bibliothek bietet robuste Sicherheitsmaßnahmen, um potenzielle Risiken zu minimieren und die Datensicherheit zu gewährleisten. Sie ist mit allen gängigen Browsern kompatibel und nicht auf einen bestimmten Browser beschränkt. Mit IronPDF können Programmierer mit nur wenigen Zeilen Code effizient PDF-Dateien erstellen und lesen. Um den unterschiedlichen Anforderungen von Entwicklern gerecht zu werden, bietet die IronPDF-Bibliothek verschiedene Lizenzierungsoptionen, darunter eine kostenlose Entwicklerlizenz und zusätzliche Entwicklungslizenzen, die erworben werden können.

Das Lite-Paket zum Preis von $749 beinhaltet eine unbefristete Lizenz, eine 30-tägige Geld-zurück-Garantie, ein Jahr Software-Wartung und Upgrade-Möglichkeiten. Nach dem Erstkauf fallen keine weiteren Kosten an, und diese Lizenzen können in Produktions-, Staging- und Entwicklungsumgebungen verwendet werden. IronPDF bietet auch kostenlose Lizenzen mit einigen Zeit- und Weiterverbreitungsbeschränkungen an. Benutzer können das Produkt in einer realen Umgebung mit einemkostenloser Test zeitraum, der kein Wasserzeichen enthält. Für detaillierte Informationen zu den Kosten und der Lizenzierung der IronPDF-Testversion klicken Sie bitte auf den folgenden Linklizenzierungsseite.

Kannapat Udonpant

Jetzt mit dem Ingenieurteam chatten

Software-Ingenieur

Bevor er Software-Ingenieur wurde, promovierte Kannapat an der Universität Hokkaido in Japan im Bereich Umweltressourcen. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Abteilung für Bioproduktionstechnik ist. Im Jahr 2022 wechselte er mit seinen C#-Kenntnissen zum Engineering-Team von Iron Software, wo er sich auf IronPDF konzentriert. Kannapat schätzt an seiner Arbeit, dass er direkt von dem Entwickler lernt, der den Großteil des in IronPDF verwendeten Codes schreibt. Neben dem kollegialen Lernen genießt Kannapat auch den sozialen Aspekt der Arbeit bei Iron Software. Wenn er nicht gerade Code oder Dokumentationen schreibt, kann man Kannapat normalerweise beim Spielen auf seiner PS5 oder beim Wiedersehen mit The Last of Us antreffen.

< PREVIOUS
Wie man eine PDF-Datei in Python schreibt

NÄCHSTES >
Wie man in Python PDF von einer URL herunterlädt