VERWENDUNG VON IRONPDF FOR PYTHON

Wie man eine PDF-Datei in Python analysiert

Jordi Bardia

13. September 2023

Aktualisiert 28. September 2024

Teilen Sie:

1.0 Einführung

Moderne Bibliotheken haben die PDF-Erstellung rationalisiert. Bei der Auswahl einer Bibliothek für PDF-Projekte sollten Sie die Erstellungs-, Lese- und Konvertierungsfähigkeiten für optimale Integration und Leistung berücksichtigen. Python bietet Tools wie IronPDF, die bestehende PDFs effizient analysieren können.

2.0 IronPDF

Python ist eine Programmiersprache, die es Entwicklern ermöglicht, schnell und einfach grafische Benutzeroberflächen zu erstellen. Im Vergleich zu anderen Sprachen bietet sie eine größere Dynamik für Programmierer. Daher ist die Integration der IronPDF-Bibliothek in Python ein unkomplizierter Prozess.

Um schnell und sicher eine voll funktionsfähige grafische Benutzeroberfläche zu erstellen, können Entwickler verschiedene vorinstallierte Tools nutzen, darunter PyQt, wxWidgets, Kivy und viele andere Pakete und Bibliotheken. Es sei darauf hingewiesen, dass IronPDF keine reine Python PDF-Bibliothek ist; stattdessen ermöglicht es die Integration verschiedener Funktionen aus anderen Frameworks wie .NET Core.

IronPDF vereinfacht Python-Webdesign und -Entwicklung, insbesondere aufgrund der Beliebtheit von Python-Webentwicklungsparadigmen wie Django, Flask und Pyramid. Namhafte Websites und Online-Dienste wie Reddit, Mozilla und Spotify haben diese Frameworks genutzt. Mehr über Python in IronPDF erfahren Sie in derIronPDF für Python Website.

2.1 Merkmale von IronPDF

IronPDF ist in der LageCreating PDF filesaus verschiedenen Quellen, einschließlich HTML, HTML5, ASPX und Razor/MVC-Ansicht. Es bietet Funktionen zur Erstellung von PDFs aus HTML-Seiten und Bildern.
Das IronPDF-Toolkit bietet eine Reihe von Werkzeugen für Aufgaben wie das Erstellen interaktiver PDFs,Ausfüllen und Absenden interaktiver Formulare, geteilt undkombinierenPDF-Dateien,text und Bilder extrahierenaus PDF-Dateien, nach bestimmten Wörtern innerhalb einer PDF-Datei suchen,PDF-Seiten in Bilder umwandelnPDF in HTML konvertieren.
IronPDF unterstützt User-Agents, Proxies, Cookies, HTTP-Header und Formvariablen und ermöglicht die Validierung von HTML-Anmeldeformularen.
Zugriff auf geschützte Dokumentein IronPDF erfolgt die Berechtigung durch die Verwendung von Benutzernamen und Passwörtern.
IronPDF hilft bei der Erstellung von PDF-Dateien undDruckenmit nur wenigen Codezeilen aus verschiedenen Quellen wie Strings, Streams, URLs usw.

3.0 Einrichtung Python

3.1 Umgebung einrichten

Stellen Sie sicher, dass Python auf Ihrem PC installiert ist. Besuchen Sie dieoffizielle Python-Website um die neueste Version von Python herunterzuladen und zu installieren, die für Ihr Betriebssystem geeignet ist. Sobald Python installiert ist, richten Sie eine virtuelle Umgebung ein, um die Abhängigkeiten für Ihr Projekt zu isolieren. Verwenden Sie das Modul "venv", um virtuelle Umgebungen zu erstellen und zu verwalten und Ihrem Konvertierungsprojekt einen sauberen und unabhängigen Arbeitsbereich zu bieten.

3.2 Neues Projekt in PyCharm

Wir werden PyCharm, eine IDE zum Schreiben von Python-Code, für diese Demonstration verwenden.

Klicken Sie auf "Neues Projekt", nachdem Sie die PyCharm IDE gestartet haben.

Wie man eine PDF-Datei in Python parst, Abbildung 1: Der Begrüßungsbildschirm von PyCharm

Der PyCharm-Willkommensbildschirm

Wenn Sie "Neues Projekt" auswählen, erscheint ein neues Fenster, in dem Sie den Speicherort des Projekts und dessen Umgebung angeben können. Dieses neue Fenster ist im nachstehenden Screenshot zu sehen.

Wie man eine PDF-Datei in Python analysiert, Abbildung 2: Der neue Projektbildschirm in PyCharm

Der neue Projektbildschirm in PyCharm

Klicken Sie auf die Schaltfläche Erstellen, um ein neues Projekt zu starten, nachdem Sie den Projektstandort und den Umgebungspfad festgelegt haben. Daraufhin wird ein neues Fenster geöffnet, in dem das Programm entwickelt werden kann. Dieses Tutorial empfiehlt Python 3.9.

So parsen Sie eine PDF-Datei in Python, Abbildung 3: Eine Hauptdatei in PyCharm geöffnet.

Eine Hauptdatei in PyCharm geöffnet

3.3 IronPDF-Bibliotheksanforderung

IronPDF, eine Python-Bibliothek, basiert hauptsächlich auf .NET 6.0. Daher muss auf Ihrem PC die .NET 6.0-Laufzeitumgebung installiert sein, um IronPDF für Python zu nutzen. Bevor Linux- und Mac-Benutzer dieses Python-Modul verwenden können, muss möglicherweise .NET installiert werden. Die benötigte Laufzeitumgebung erhalten Sie über den.NET-Website.

3.4 Einrichtung der IronPDF-Bibliothek

Das Paket "ironpdf" muss installiert werden, um Dateien mit der Endung ".pdf" erstellen, bearbeiten und öffnen zu können. Um das Paket in PyCharm zu installieren, öffnen Sie ein Terminalfenster und geben Sie den folgenden Befehl ein:

pip install ironpdf

Der Screenshot unten zeigt die Einrichtung des Pakets "ironpdf".

Wie man eine PDF-Datei in Python parst, Abbildung 4: Ein Terminal, das die Installation von IronPDF mit pip zeigt

Ein Terminal, das die Installation von IronPDF mit pip zeigt

4.0 Parsen von PDF mit IronPDF

Mit Hilfe der IronPDF-Bibliotheken ist es möglich, Text aus PDF-Dateien zu extrahieren. IronPDF bietet verschiedene Techniken zur Textextraktion. Beim ersten Ansatz wird der gesamte Inhalt der Seite als eine einzige Zeichenfolge abgerufen. Bei der zweiten Methode wird der Inhalt Seite für Seite gelesen, beginnend mit der ersten Seite. Das folgende Codeschnipsel demonstriert ein Muster für die Überprüfung von aktuellen PDF-Dateien mit IronPDF.

Es gibt zwei Methoden, um Daten aus einer PDF zu extrahieren:

Extrahieren aus der PDF-Datei nach Seiten.
Extrahieren der gesamten PDF-Datei als Text.
Nachstehend finden Sie die PDF-Datei, die wir für diesen Artikel verwenden werden. Sie hat zwei Seiten.
Eine PDF mit der Seitenzahl oben auf jeder Seite

4.0.1 TEXTEXTRAKTION NACH SEITEN

Das nachstehende Codebeispiel zeigt, wie die Seitenzahl zum Abrufen von Daten aus einer PDF-Datei verwendet werden kann.

from ironpdf import *

pdfDocument = PdfDocument.FromFile("F:\\PDF\\1.pdf")
AllText = pdfDocument.ExtractTextFromPage(0)
print(AllText)

from ironpdf import *

pdfDocument = PdfDocument.FromFile("F:\\PDF\\1.pdf")
AllText = pdfDocument.ExtractTextFromPage(0)
print(AllText)

PYTHON

Das Codeschnipsel demonstriert die Verwendung der FromFile-Funktion zum Lesen einer PDF-Datei und zum Erstellen eines PDF-Dokumentobjekts. Dieses Objekt ermöglicht den Zugriff auf Texte und Bilder innerhalb der PDF. Um den Text von einer bestimmten Seite zu extrahieren, kann die Methode ExtractTextFromPage verwendet werden, indem die Seitenzahl als Parameter übergeben wird. Diese Methode gibt eine Zeichenkette mit allen Wörtern der angegebenen Seite zurück. Die Ausgabe wird wie folgt angezeigt.

So analysieren Sie eine PDF-Datei in Python, Abbildung 6: Ein Screenshot des Terminals mit dem Textausgang Seite 1

Ein Screenshot des Terminals mit der Textausgabe "Seite 1"

Der rechteckige Kasten, der im Ergebnis hervorgehoben ist, ist der aus der PDF-Datei extrahierte Text auf der Seite Nummer 1, die den Index 0 hat.

4.0,2 AUSZUG AUS ALLEN SEITEN

Der erste Ansatz, um schnell und einfach den gesamten PDF-Inhalt als String zu erhalten, wird im folgenden Codebeispiel gezeigt.

# creating a PDF file object
pdf = PdfDocument.FromFile('F:\\PDF\\1.pdf')
all_text = pdf.ExtractAllText()
print(all_text)

# creating a PDF file object
pdf = PdfDocument.FromFile('F:\\PDF\\1.pdf')
all_text = pdf.ExtractAllText()
print(all_text)

PYTHON

Der oben gezeigte Beispielcode erklärt, wie man ein PDF von einem bestehenden Dateipfad liest und es mit der FromFile-Funktion in ein PDF-Dateiobjekt umwandelt. Der einfache Text der PDF-Datei wird extrahiert und mit der ExtractAllText-Funktion des Objekts in einen String umgewandelt, und der extrahierte Text wird im Terminal ausgegeben. Das Ergebnis wird wie folgt angezeigt.

So parsen Sie eine PDF-Datei in Python, Abbildung 7: Ein Screenshot des Terminals mit Textausgabe Seite 1 und Seite 2

Ein Bildschirmfoto des Terminals mit Textausgabe "Seite 1" und "Seite 2"

Die im Ergebnis hervorgehobenen rechteckigen Felder enthalten den aus allen Seiten der PDF-Datei extrahierten Text.

Mit Hilfe von IronPDF können wir PDFs mit C# erstellen. Um mehr über IronPDF zu erfahren, besuchen Sie dieIronPDF-Website.

5.0 Schlussfolgerung

Um Risiken zu minimieren und den Datenschutz zu gewährleisten, bietet die IronPDF-Bibliothek strenge Sicherheitsmaßnahmen. Sie ist mit allen gängigen Browsern kompatibel und nicht auf einen einzigen beschränkt. IronPDF ermöglicht es Programmierern, PDF-Dateien mit nur wenigen Zeilen Code zu erstellen und zu lesen. Um den unterschiedlichen Anforderungen von Entwicklern gerecht zu werden, bietet die IronPDF-Bibliothek eine Vielzahl von Lizenzierungsoptionen, darunter eine kostenlose Entwicklerlizenz und zusätzliche Entwicklungslizenzen, die käuflich erworben werden können.

Das $749 Lite-Paket enthält eine unbefristete Lizenz, eine 30-Tage-Geld-zurück-Garantie, ein Jahr Software-Support und Upgrade-Möglichkeiten. Über den ersten Kauf hinaus fallen keine weiteren Kosten an. Die Produktions-, Staging- und Entwicklungsumgebungen nutzen alle diese Lizenzen. IronPDF bietet auch kostenlose Lizenzen mit einigen Zeit- und Weiterverbreitungsbeschränkungen an. Während der kostenlosen Testphase können die Nutzer das Produkt ohne Wasserzeichen in der Praxis testen. Weitere Einzelheiten zu den Kosten und der Lizenzierung der IronPDF-Testversion finden Sie auf der WebsiteIronPDF-Lizenzierungsseite.

Jordi Bardia

Jetzt mit dem Ingenieurteam chatten

Software-Ingenieur

Jordi beherrscht vor allem Python, C# und C++. Wenn er seine Fähigkeiten bei Iron Software nicht einsetzt, programmiert er Spiele. Durch seine Mitverantwortung für Produkttests, Produktentwicklung und Forschung trägt Jordi wesentlich zur kontinuierlichen Produktverbesserung bei. Die vielseitigen Erfahrungen, die er sammelt, bieten ihm immer wieder neue Herausforderungen, und er sagt, dass dies einer seiner Lieblingsaspekte bei Iron Software ist. Jordi wuchs in Miami, Florida, auf und studierte Informatik und Statistik an der University of Florida.

< PREVIOUS
Wie man PDF-Dateien in Python aufteilt

NÄCHSTES >
Extrahieren von Rechnungsdaten aus PDF in Python