PYTHON PDF-WERKZEUGE

Wie man PDF-Dateien in Python liest

Veröffentlicht 3. Juli 2023
Teilen Sie:

PDF-Dateien (Portable Document Format) haben sich zu einem universellen Standard für den Austausch von Dokumenten entwickelt. Sie werden häufig verwendet, weil sie das Layout und die Formatierung eines Dokuments beibehalten können. Die Arbeit mit PDF-Dateien in Programmiersprachen wie Python kann jedoch eine gewisse Herausforderung darstellen. Dieser Artikel stellt IronPDF vor, eine Python-PDF-Bibliothek, mit der man verschiedene Operationen mit PDF-Dokumenten durchführen kann.

IronPDF Python PDF-Bibliothek

IronPDF ist ein fortschrittliches Python PDF-Bibliothek das die Arbeit mit Dateien im PDF-Format erleichtert. Es bietet eine einfach zu verwendende API für verschiedene PDF-Operationen. Sie können PDF-Dateien lesen und schreiben, PDF-Dateien in verschiedene Formate konvertieren, mehrere PDF-Dateien kombinieren und vieles mehr. Es kann auch mit Seitenobjekten umgehen, Text aus allen Seiten der PDF-Datei extrahieren und PDF-Seiten drehen, um nur einige Funktionen zu nennen.

Wie man PDF-Dateien in Python liest

  1. Installieren Sie die Python PDF Library mit Pip.

  2. Importieren Sie die Python-PDF-Bibliothek in das Python-Skript.

  3. Übernehmen Sie den Lizenzschlüssel für die PDFReader Python Library.

  4. Laden Sie ein beliebiges PDF-Dokument, indem Sie den Pfad des Dokuments angeben.

  5. PDF-Inhalte auf der Python-Konsole lesen.

Lesen einer PDF-Datei mit IronPDF

Das Lesen einer PDF-Datei mit IronPDF umfasst mehrere Schritte. Hier finden Sie einen einfachen Leitfaden für den Anfang:

Schritt 1 Erstellen einer virtuellen Umgebung in Visual Studio

Bei der Arbeit mit Python ist es wichtig, eine isolierte Umgebung, eine so genannte virtuelle Umgebung, zu schaffen. In dieser Umgebung können Sie projektspezifische Abhängigkeiten verwalten, ohne andere Projekte zu beeinträchtigen. Die Erstellung einer virtuellen Umgebung ist in einer integrierten Entwicklungsumgebung noch einfacher (IDE) wie Visual Studio Code. Führen Sie dazu die folgenden Schritte aus:

  1. Öffnen Sie den Ordner in Visual Studio Code. Drücken Sie Strg+Umschalt+P, um die Befehlspalette zu öffnen. Suchen Sie in der Befehlspalette nach "Python: Umgebung erstellen"

    Wie man PDF-Dateien in Python liest: Abbildung 1

  2. Wählen Sie die erste Option und wählen Sie dann "Venv" als Umgebungstyp.

    Wie man PDF-Dateien in Python liest: Abbildung 2

  3. Anschließend wählen Sie den Python-Interpreter aus, der mit der Erstellung der virtuellen Umgebung beginnt.

    Wie man PDF-Dateien in Python liest: Abbildung 3

    Jetzt haben Sie Ihren isolierten Arbeitsbereich für Ihre Python-Skripte und stellen sicher, dass die Projektabhängigkeiten auf diese Umgebung beschränkt sind.

    Wie man PDF-Dateien in Python liest: Abbildung 4

Schritt 2 Installation der IronPDF for Python-Bibliothek

Nachdem Sie die virtuelle Umgebung eingerichtet haben, können Sie die IronPDF for Python-Bibliothek installieren. Sie können es mit dem Python-Paketinstallationsprogramm 'pip' installieren:

 pip installieren ironpdf

Schritt 3 Installation von .NET 6.0

IronPDF for Python erfordert die Installation des .NET 6.0 SDK.

Bitte laden Sie das .NET 6.0 SDK herunter und installieren Sie es von der Microsoft .NET-Website.

Schritt 4 IronPDF importieren

Nachdem Sie IronPDF erfolgreich installiert haben, müssen Sie es in Ihr Python-Skript importieren. Durch den Import der Bibliothek werden alle ihre Funktionen und Methoden für die Verwendung in Ihrem Skript verfügbar. Sie können IronPDF mit der folgenden Code-Zeile importieren:

from ironpdf import *
PYTHON

Diese Codezeile importiert alle in der IronPDF-Bibliothek verfügbaren Module, Funktionen und Klassen in Ihr Skript.

Schritt 5 Lizenzschlüssel anwenden

Um den vollen Funktionsumfang der IronPDF-Bibliothek nutzen zu können, müssen Sie einen Lizenzschlüssel beantragen. Die Anwendung eines Lizenzschlüssels ist so einfach wie die Zuweisung des Schlüssels an die Eigenschaft LicenseKey der Klasse License. So wird es gemacht:

License.LicenseKey = "License-Key-Here"
PYTHON

Ersetzen Sie "License-Key-Here" durch Ihren aktuellen IronPDF-Lizenzschlüssel. Mit dem Lizenzschlüssel sind Sie nun in der Lage, das volle Potenzial der IronPDF-Bibliothek in Ihren Python-Skripten auszuschöpfen.

Schritt 6 Protokollpfad festlegen

Als nächstes richten Sie die Protokollierung für IronPDF-Vorgänge ein. Wenn Sie einen benutzerdefinierten Protokollpfad festlegen, können Sie die von der Bibliothek erzeugten Laufzeitprotokolle speichern, um Probleme, die während der Ausführung auftreten können, zu debuggen und zu diagnostizieren. So richten Sie es ein:

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

In diesem Ausschnitt schaltet Logger.EnableDebugging = True das Debugging ein, Logger.LogFilePath = "Custom.log setzt die Ausgabeprotokolldatei auf "Custom.log", und Logger.LoggingMode = Logger.LoggingModes.All sorgt dafür, dass alle Arten von Protokollinformationen aufgezeichnet werden.

Schritt 7 PDF-Dokument laden

Das Laden eines PDF-Dokuments mit IronPDF ist so einfach wie der Aufruf einer Methode. Die Methode PdfDocument.FromFile lädt das PDF-Dokument aus dem angegebenen Pfad in ein PDF-Dateiobjekt. Sie müssen lediglich den Pfad der PDF-Datei als String angeben:

pdf = PdfDocument.FromFile("PDF B.pdf")
PYTHON

In diesem Code wird pdf zu einem PdfDocument-Objekt, das die angegebene PDF-Datei darstellt.

Schritt 8 Inhalt der PDF-Datei lesen

IronPDF bietet eine Methode namens ExtractAllText() das hilft bei extrahieren von Textinhalten aus der PDF-Datei dokument. Dies ist besonders praktisch, wenn Sie den Inhalt einer PDF-Datei lesen und analysieren müssen:

all_text = pdf.ExtractAllText()  # Extracts all text from the PDF document
print(all_text)  # Prints the extracted text to the console
PYTHON

In diesem Beispiel enthält "all_text" den gesamten Text der PDF-Datei aus dem Objekt "pdf". Sie können PDF-Inhalte auf der Konsole lesen.

Wie man PDF-Dateien in Python liest: Abbildung 5

Schritt 9 Zweite PDF-Datei laden

Genauso wie Sie das erste PDF-Dokument geladen haben, können Sie auch ein zweites PDF-Dokument laden. Diese Funktion ist hilfreich, wenn Sie mehrere PDF-Dateien bearbeiten möchten:

pdf_2 = PdfDocument.FromFile("PDF A.pdf")
PYTHON

In diesem Code ist pdf_2 ein weiteres PdfDocument-Objekt, das die zweite PDF-Datei darstellt.

Schritt 10 Beide Dateien zusammenführen

Eine der leistungsfähigen Funktionalitäten von IronPDF ist zusammenführen mehrerer PDF-Dateien in eine einzige neue PDF-Datei. Mit der Methode PdfDocument.Merge können Sie zwei oder mehr PDF-Dokumente einfach kombinieren:

merged = PdfDocument.Merge(pdf, pdf_2)  # Merges pdf and pdf_2 documents
merged.SaveAs("Merged.pdf")  # Saves the merged document as 'Merged.pdf'
PYTHON

In diesem Beispiel ist merged ein neues PdfDocument-Objekt, das das Ergebnis der Zusammenführung von pdf und pdf_2 ist. Die Methode SaveAs speichert dann dieses zusammengeführte Dokument unter dem Namen "Merged.pdf".

Wie man PDF-Dateien in Python liest: Abbildung 6

Schritt 11 Erste PDF-Datei teilen

IronPDF ermöglicht Ihnen außerdem ein PDF-Dokument aufteilen und bestimmte Seiten in neue PDF-Dateien extrahieren. Dies geschieht mit der Methode "CopyPage":

page1doc = pdf.CopyPage(0)  # Copies the first page of the pdf document
page1doc.SaveAs("Split1.pdf")  # Saves the copied page as a new document 'Split1.pdf'
PYTHON

Hier ist "page1doc" ein neues PdfDocument-Objekt, das die erste Seite des "pdf"-Dokuments enthält. Diese Seite wird dann als Ausgabe-PDF mit dem Namen "Split1.pdf" gespeichert.

Wie man PDF-Dateien in Python liest: Abbildung 7

Schritt 12 Wasserzeichen anwenden

Wasserzeichen sind eine weitere beeindruckende Funktion von IronPDF. Sie können Ihr PDF-Dokument mit Ihrem gewünschten Text oder Bild mit einem Wasserzeichen versehen. Die Methode ApplyWatermark wird verwendet, um der durch das pdf-Objekt dargestellten PDF-Datei ein Wasserzeichen hinzuzufügen.

pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center)
pdf.SaveAs("Watermarked.pdf")
PYTHON

In diesem Ausschnitt wird mit ApplyWatermark ein rotes Wasserzeichen mit dem Text "SAMPLE" in der Mitte der PDF-Datei angebracht. Dann speichert "SaveAs" das mit Wasserzeichen versehene Dokument als "Watermarked.pdf".

IronPDF-Kompatibilität

IronPDF ist eine vielseitige Python-Bibliothek, die mit einer Vielzahl von Python-Versionen kompatibel ist. Es unterstützt alle modernen Python-Versionen ab Python 3.6 aufwärts. IronPDF ist nicht auf ein einziges Betriebssystem beschränkt. Es ist plattformunabhängig und kann daher auf einer Vielzahl von Betriebssystemen verwendet werden. Ob Windows, Mac oder Linux, IronPDF funktioniert nahtlos auf all diesen Plattformen. Diese plattformübergreifende Kompatibilität ist ein enormer Vorteil, der IronPDF zur ersten Wahl für Entwickler macht, unabhängig von deren Betriebssystempräferenzen.

Schlussfolgerung

Zusammenfassend lässt sich sagen, dass IronPDF eine hervorragende Python-Bibliothek ist, die den Umgang mit PDF-Dokumenten vereinfacht. Egal, ob Sie mehrere PDFs zusammenführen, Text extrahieren, PDF-Dateien aufteilen oder mit Wasserzeichen versehen möchten, IronPDF hat alles, was Sie brauchen. Seine Kompatibilität mit mehreren Plattformen und seine Benutzerfreundlichkeit machen es zu einem wertvollen Werkzeug für jeden Entwickler, der mit PDF-Dokumenten arbeitet.

IronPDF bietet eine kostenloser Test. Dieser Testzeitraum bietet Ihnen die Möglichkeit, die Funktionen auszuprobieren und zu prüfen, ob sie Ihren speziellen Anforderungen entsprechen. Sobald Sie es getestet haben, können Sie eine Lizenz ab $749 erwerben.

< PREVIOUS
Wie man in Python eine PDF-Datei erstellt
NÄCHSTES >
Konvertieren von HTML in PDF in Python

Sind Sie bereit, loszulegen? Version: 2024.9 gerade veröffentlicht

pip install gratuit Lizenzen anzeigen >