Wie man mit Python PDF-Dateien liest
PDF-Dateien, oder Portable Document Format-Dateien, sind zu einem universellen Standard für den Dokumentenaustausch geworden. Sie werden häufig verwendet, da sie das Layout und die Formatierung eines Dokuments beibehalten können. Allerdings kann die Arbeit mit PDF-Dateien in Programmiersprachen wie Python eine Herausforderung darstellen. Dieser Artikel stellt IronPDF vor, eine Python PDF-Bibliothek, die es ermöglicht, verschiedene Operationen mit PDF-Dokumenten durchzuführen.
IronPDF für die Python PDF-Bibliothek
IronPDF ist eine fortschrittliche Python PDF-Bibliothek, die die Arbeit mit PDF-Dateien erleichtert. Es bietet eine benutzerfreundliche API für verschiedene PDF-Operationen. Sie können PDF-Dateien lesen und schreiben, PDF-Dateien in verschiedene Formate konvertieren, mehrere PDF-Dateien kombinieren und vieles mehr. Es kann auch mit Seitenobjekten umgehen, Text aus allen Seiten der PDF-Datei extrahieren und PDF-Seiten drehen, neben anderen Funktionen.
Wie man PDF-Dateien in Python liest
- Installieren Sie die Python PDF-Bibliothek mit Pip.
- Importieren Sie die Python PDF-Bibliothek im Python-Skript.
- Wenden Sie den Lizenzschlüssel der PDFReader Python-Bibliothek an.
- Laden Sie ein beliebiges PDF-Dokument, indem Sie den Pfad des Dokuments angeben.
- Lesen Sie PDF-Inhalte auf der Python-Konsole.
Eine PDF-Datei mit IronPDF lesen
Das Lesen einer PDF-Datei mit IronPDF umfasst mehrere Schritte. Hier ist eine einfache Anleitung für den Einstieg:
Schritt 1 Erstellen Sie eine virtuelle Umgebung in Visual Studio
Beim Arbeiten mit Python ist es wichtig, eine isolierte Umgebung zu schaffen, die als virtuelle Umgebung bekannt ist. Diese Umgebung ermöglicht es Ihnen, abhängige Komponenten spezifisch für das Projekt zu verwalten, an dem Sie arbeiten, ohne andere Projekte zu stören. Das Erstellen einer virtuellen Umgebung wird in einer integrierten Entwicklungsumgebung (IDE) wie Visual Studio Code noch einfacher. Befolgen Sie dazu die folgenden Schritte:
-
Öffnen Sie den Ordner in Visual Studio Code. Drücken Sie Strg+Shift+P, um die Befehlspalette zu öffnen. Suchen Sie in der Befehlspalette nach "Python: Umgebung erstellen".

-
Wählen Sie die erste Option und dann "Venv" als Umgebungstyp.

-
Wählen Sie danach den Python-Interpreter aus, und es wird die virtuelle Umgebung erstellt.

Jetzt haben Sie Ihren isolierten Arbeitsbereich für Ihre Python-Skripte bereitgestellt, der sicherstellt, dass die Projektabhängigkeiten auf diese Umgebung beschränkt sind.
![]()
Schritt 2 Installieren Sie die IronPDF for Python-Bibliothek
Nachdem die virtuelle Umgebung eingerichtet ist, sind Sie bereit, die IronPDF for Python-Bibliothek zu installieren. Sie können sie mit dem Python-Paket-Installer 'pip' installieren:
pip install ironpdf
pip install ironpdf
Schritt 3 Installieren Sie .NET 6.0
IronPDF for Python erfordert, dass das .NET 6.0 SDK installiert ist.
Bitte laden Sie das .NET 6.0 SDK von der Microsoft .NET Website herunter und installieren Sie es.
Schritt 4 Importieren Sie IronPDF
Nach erfolgreicher Installation von IronPDF ist der nächste Schritt, es in Ihr Python-Skript zu importieren. Durch das Importieren der Bibliothek werden alle ihre Funktionen und Methoden für die Verwendung in Ihrem Skript verfügbar gemacht. Sie können IronPDF mit der folgenden Codezeile importieren:
from ironpdf import *
from ironpdf import *
Diese Codezeile importiert alle in der IronPDF-Bibliothek verfügbaren Module, Funktionen und Klassen in Ihr Skript.
Schritt 5 Lizenzschlüssel anwenden
Um die vollständigen Funktionen der IronPDF-Bibliothek freizuschalten, müssen Sie einen Lizenzschlüssel anwenden. Das Anwenden eines Lizenzschlüssels ist so einfach wie das Zuweisen des Schlüssels zur LicenseKey Eigenschaft der License Klasse. So geht's:
License.LicenseKey = "License-Key-Here"
License.LicenseKey = "License-Key-Here"
Ersetzen Sie "License-Key-Here" durch Ihren tatsächlichen IronPDF Lizenzschlüssel. Mit dem Lizenzschlüssel können Sie nun das volle Potenzial der IronPDF-Bibliothek in Ihren Python-Skripten ausschöpfen.
Schritt 6 Log-Pfad festlegen
Als nächstes richten Sie das Logging für IronPDF-Operationen ein. Durch das Festlegen eines benutzerdefinierten Log-Pfads können Sie die von der Bibliothek generierten Laufzeitprotokolle speichern, die Ihnen beim Debuggen und Diagnostizieren von Problemen während der Ausführung helfen. So richten Sie ihn ein:
# Enable debugging mode for detailed logs
Logger.EnableDebugging = True
# Set the path for the log file
Logger.LogFilePath = "Custom.log"
# Set logging mode to capture all log types
Logger.LoggingMode = Logger.LoggingModes.All
# Enable debugging mode for detailed logs
Logger.EnableDebugging = True
# Set the path for the log file
Logger.LogFilePath = "Custom.log"
# Set logging mode to capture all log types
Logger.LoggingMode = Logger.LoggingModes.All
In diesem Code-Snippet schaltet Logger.EnableDebugging = True das Debugging ein, Logger.LogFilePath = "Custom.log" legt die Ausgabeprotokolldatei auf "Custom.log" fest und Logger.LoggingMode = Logger.LoggingModes.All stellt sicher, dass alle Arten von Protokollinformationen aufgezeichnet werden.
Schritt 7 Laden eines PDF-Dokuments
Das Laden eines PDF-Dokuments mit IronPDF ist so einfach wie das Aufrufen einer Methode. Die Methode PdfDocument.FromFile lädt das PDF-Dokument vom angegebenen Pfad in ein PDF-Dateiobjekt. Sie müssen nur den Pfad der PDF-Datei als Zeichenkette angeben:
pdf = PdfDocument.FromFile("PDF B.pdf")
pdf = PdfDocument.FromFile("PDF B.pdf")
In diesem Code wird pdf zu einem PdfDocument-Objekt, das die angegebene PDF-Datei repräsentiert.
Schritt 8 PDF-Dateiinhalt lesen
IronPDF bietet eine Methode namens ExtractAllText(), die beim Extrahieren von Textinhalten aus dem PDF- Dokument hilft. Dies ist besonders hilfreich, wenn Sie den Inhalt einer PDF-Datei lesen und analysieren müssen:
all_text = pdf.ExtractAllText() # Extracts all text from the PDF document
print(all_text) # Prints the extracted text to the console
all_text = pdf.ExtractAllText() # Extracts all text from the PDF document
print(all_text) # Prints the extracted text to the console
In diesem Beispiel enthält all_text den gesamten PDF-Dateitext aus dem Objekt pdf. Sie können PDF-Inhalte auf der Konsole lesen.

Schritt 9 Zweite PDF-Datei laden
Genau wie Sie das erste PDF-Dokument geladen haben, können Sie auch ein zweites PDF-Dokument laden. Diese Funktion ist nützlich, wenn Sie mehrere PDF-Dateien bearbeiten möchten:
pdf_2 = PdfDocument.FromFile("PDF A.pdf")
pdf_2 = PdfDocument.FromFile("PDF A.pdf")
In diesem Code ist pdf_2 ein weiteres PdfDocument-Objekt, das die zweite PDF-Datei repräsentiert.
Schritt 10 PDF zusammenfügen
Eine der leistungsstarken Funktionen von IronPDF ist das Zusammenführen mehrerer PDF-Dateien zu einer einzigen neuen PDF-Datei. Sie können zwei oder mehr PDF-Dokumente ganz einfach mit der Methode PdfDocument.Merge kombinieren:
merged = PdfDocument.Merge(pdf, pdf_2) # Merges pdf and pdf_2 documents
merged.SaveAs("Merged.pdf") # Saves the merged document as 'Merged.pdf'
merged = PdfDocument.Merge(pdf, pdf_2) # Merges pdf and pdf_2 documents
merged.SaveAs("Merged.pdf") # Saves the merged document as 'Merged.pdf'
In diesem Beispiel ist merged ein neues PdfDocument-Objekt, das aus der Verschmelzung von pdf und pdf_2 hervorgeht. Die Methode SaveAs speichert dieses zusammengeführte Dokument dann unter dem Namen "Merged.pdf".

Schritt 11 Erstes PDF teilen
IronPDF ermöglicht es Ihnen auch, ein PDF-Dokument zu teilen und bestimmte Seiten in neue PDF-Dateien zu extrahieren. Dies geschieht mithilfe der CopyPage Methode:
page1doc = pdf.CopyPage(0) # Copies the first page of the pdf document
page1doc.SaveAs("Split1.pdf") # Saves the copied page as a new document 'Split1.pdf'
page1doc = pdf.CopyPage(0) # Copies the first page of the pdf document
page1doc.SaveAs("Split1.pdf") # Saves the copied page as a new document 'Split1.pdf'
Hierbei handelt es sich bei page1doc um ein neues PdfDocument Objekt, das die erste Seite des pdf Dokuments enthält. Diese Seite wird dann als Ausgabepdf mit dem Namen "Split1.pdf" gespeichert.

Schritt 12 Wasserzeichen anwenden
Das Anbringen von Wasserzeichen ist eine weitere beeindruckende Funktion, die IronPDF bietet. Sie können Ihr PDF-Dokument mit dem gewünschten Text oder Bild als Wasserzeichen versehen. Die Methode ApplyWatermark wird verwendet, um dem durch das Objekt pdf repräsentierten PDF ein Wasserzeichen hinzuzufügen.
pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center)
pdf.SaveAs("Watermarked.pdf")
pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center)
pdf.SaveAs("Watermarked.pdf")
In diesem Codeausschnitt fügt ApplyWatermark ein rotes Wasserzeichen mit dem Text "SAMPLE" in die Mitte der PDF-Datei ein. Dann speichert SaveAs das mit einem Wasserzeichen versehene Dokument unter dem Namen "Watermarked.pdf".
IronPDF-Kompatibilität
IronPDF ist eine vielseitige Python-Bibliothek, die mit einer Vielzahl von Python-Versionen kompatibel ist. Es unterstützt alle modernen Python-Versionen ab Python 3.6. IronPDF ist nicht auf ein einziges Betriebssystem beschränkt. Es ist plattformunabhängig und kann daher auf verschiedenen Betriebssystemen verwendet werden. Ob Windows, Mac oder Linux, IronPDF arbeitet nahtlos auf diesen Plattformen. Diese plattformübergreifende Kompatibilität ist ein großer Vorteil, der IronPDF zu einer bevorzugten Wahl für Entwickler macht, unabhängig von ihren Betriebssystemvorlieben.
Abschluss
Abschließend ist IronPDF eine ausgezeichnete Python-Bibliothek, die den Umgang mit PDF-Dokumenten vereinfacht. Egal, ob Sie mehrere PDFs zusammenführen, Text extrahieren, PDF-Dateien teilen oder Wasserzeichen anwenden müssen, IronPDF hat alles, was Sie brauchen. Die Kompatibilität mit mehreren Plattformen und die einfache Handhabung machen es zu einem wertvollen Werkzeug für jeden Entwickler, der mit PDF-Dokumenten arbeitet.
IronPDF bietet eine kostenlose Testversion an. Diese Testphase gibt Ihnen ausreichend Gelegenheit, mit ihren Funktionen zu experimentieren und ihre Eignung für Ihre spezifischen Bedürfnisse zu bewerten. Sobald Sie es getestet haben, können Sie eine Lizenz ab $999 erwerben.




