Zum Fußzeileninhalt springen
PYTHON-PDF-TOOLS

Wie man mit Python PDF-Dateien liest

PDF-Dateien, oder Portable Document Format-Dateien, sind zu einem universellen Standard für den Dokumentenaustausch geworden. Sie werden häufig verwendet, da sie das Layout und die Formatierung eines Dokuments beibehalten können. Allerdings kann die Arbeit mit PDF-Dateien in Programmiersprachen wie Python eine Herausforderung darstellen. Dieser Artikel stellt IronPDF vor, eine Python PDF-Bibliothek, die es ermöglicht, verschiedene Operationen mit PDF-Dokumenten durchzuführen.

IronPDF für die Python PDF-Bibliothek

IronPDF ist eine fortschrittliche Python PDF-Bibliothek, die die Arbeit mit PDF-Dateien erleichtert. Es bietet eine benutzerfreundliche API für verschiedene PDF-Operationen. Sie können PDF-Dateien lesen und schreiben, PDF-Dateien in verschiedene Formate konvertieren, mehrere PDF-Dateien kombinieren und vieles mehr. Es kann auch mit Seitenobjekten umgehen, Text aus allen Seiten der PDF-Datei extrahieren und PDF-Seiten drehen, neben anderen Funktionen.

Wie man PDF-Dateien in Python liest

  1. Installieren Sie die Python PDF-Bibliothek mit Pip.
  2. Importieren Sie die Python PDF-Bibliothek im Python-Skript.
  3. Wenden Sie den Lizenzschlüssel der PDFReader Python-Bibliothek an.
  4. Laden Sie ein beliebiges PDF-Dokument, indem Sie den Pfad des Dokuments angeben.
  5. Lesen Sie PDF-Inhalte auf der Python-Konsole.

Eine PDF-Datei mit IronPDF lesen

Das Lesen einer PDF-Datei mit IronPDF umfasst mehrere Schritte. Hier ist eine einfache Anleitung, um Ihnen den Einstieg zu erleichtern:

Schritt 1 Erstellen Sie eine virtuelle Umgebung in Visual Studio

Beim Arbeiten mit Python ist es wichtig, eine isolierte Umgebung zu schaffen, die als virtuelle Umgebung bekannt ist. Diese Umgebung ermöglicht es Ihnen, abhängige Komponenten spezifisch für das Projekt zu verwalten, an dem Sie arbeiten, ohne andere Projekte zu stören. Das Erstellen einer virtuellen Umgebung wird in einer integrierten Entwicklungsumgebung (IDE) wie Visual Studio Code noch einfacher. Befolgen Sie dazu die folgenden Schritte:

  1. Öffnen Sie den Ordner in Visual Studio Code. Drücken Sie Strg+Shift+P, um die Befehlspalette zu öffnen. Suchen Sie in der Befehlspalette nach "Python: Umgebung erstellen".

Wie man PDF-Dateien in Python liest: Abbildung 1

  1. Wählen Sie die erste Option und dann "Venv" als Umgebungstyp.

Wie man PDF-Dateien in Python liest: Abbildung 2

  1. Wählen Sie danach den Python-Interpreter aus, und es wird die virtuelle Umgebung erstellt.

Wie man PDF-Dateien in Python liest: Abbildung 3

Jetzt haben Sie Ihren isolierten Arbeitsbereich für Ihre Python-Skripte bereitgestellt, der sicherstellt, dass die Projektabhängigkeiten auf diese Umgebung beschränkt sind.

Wie man PDF-Dateien in Python liest: Abbildung 4

Schritt 2 Installieren Sie die IronPDF für Python-Bibliothek

Nachdem die virtuelle Umgebung eingerichtet ist, sind Sie bereit, die IronPDF für Python-Bibliothek zu installieren. Sie können sie mit dem Python-Paket-Installer 'pip' installieren:

pip install ironpdf
pip install ironpdf
SHELL

Schritt 3 Installieren Sie .NET 6.0

IronPDF für Python erfordert, dass das .NET 6.0 SDK installiert ist.

Bitte laden Sie das .NET 6.0 SDK von der Microsoft .NET Website herunter und installieren Sie es.

Schritt 4 Importieren Sie IronPDF

Nach erfolgreicher Installation von IronPDF ist der nächste Schritt, es in Ihr Python-Skript zu importieren. Durch das Importieren der Bibliothek werden alle ihre Funktionen und Methoden für die Verwendung in Ihrem Skript verfügbar gemacht. Sie können IronPDF mit der folgenden Codezeile importieren:

from ironpdf import *
from ironpdf import *
PYTHON

Diese Codezeile importiert alle in der IronPDF-Bibliothek verfügbaren Module, Funktionen und Klassen in Ihr Skript.

Schritt 5 Wenden Sie den Lizenzschlüssel an

Um die vollständigen Funktionen der IronPDF-Bibliothek freizuschalten, müssen Sie einen Lizenzschlüssel anwenden. Das Anwenden eines Lizenzschlüssels ist so einfach wie das Zuweisen des Schlüssels zur Eigenschaft LicenseKey der Klasse License. So geht's:

License.LicenseKey = "License-Key-Here"
License.LicenseKey = "License-Key-Here"
PYTHON

Ersetzen Sie "License-Key-Here" durch Ihren tatsächlichen IronPDF-Lizenzschlüssel. Mit dem Lizenzschlüssel können Sie nun das volle Potenzial der IronPDF-Bibliothek in Ihren Python-Skripten ausschöpfen.

Schritt 6 Log-Pfad festlegen

Als nächstes richten Sie das Logging für IronPDF-Operationen ein. Durch das Festlegen eines benutzerdefinierten Log-Pfads können Sie die von der Bibliothek generierten Laufzeitprotokolle speichern, die Ihnen beim Debuggen und Diagnostizieren von Problemen während der Ausführung helfen. So richten Sie ihn ein:

# Enable debugging mode for detailed logs
Logger.EnableDebugging = True
# Set the path for the log file
Logger.LogFilePath = "Custom.log"
# Set logging mode to capture all log types
Logger.LoggingMode = Logger.LoggingModes.All
# Enable debugging mode for detailed logs
Logger.EnableDebugging = True
# Set the path for the log file
Logger.LogFilePath = "Custom.log"
# Set logging mode to capture all log types
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

In diesem Snippet aktiviert Logger.EnableDebugging = True das Debugging, Logger.LogFilePath = "Custom.log" legt die Ausgabedatei auf "Custom.log" fest, und Logger.LoggingMode = Logger.LoggingModes.All stellt sicher, dass alle Arten von Protokollinformationen aufgezeichnet werden.

Schritt 7 Laden eines PDF-Dokuments

Das Laden eines PDF-Dokuments mit IronPDF ist so einfach wie das Aufrufen einer Methode. Die Methode PdfDocument.FromFile lädt das PDF-Dokument vom angegebenen Pfad in ein PDF-Dateiobjekt. Sie müssen nur den Pfad der PDF-Datei als Zeichenkette angeben:

pdf = PdfDocument.FromFile("PDF B.pdf")
pdf = PdfDocument.FromFile("PDF B.pdf")
PYTHON

In diesem Code wird pdf zu einem PdfDocument-Objekt, das die angegebene PDF-Datei repräsentiert.

Schritt 8 PDF-Dateiinhalt lesen

IronPDF bietet eine Methode namens ExtractAllText(), die das Extrahieren von Textinhalten aus dem PDF-Dokument erleichtert. Dies ist besonders hilfreich, wenn Sie den Inhalt einer PDF-Datei lesen und analysieren müssen:

all_text = pdf.ExtractAllText()  # Extracts all text from the PDF document
print(all_text)  # Prints the extracted text to the console
all_text = pdf.ExtractAllText()  # Extracts all text from the PDF document
print(all_text)  # Prints the extracted text to the console
PYTHON

In diesem Beispiel enthält all_text den gesamten Text der PDF-Datei des pdf-Objekts. Sie können PDF-Inhalte auf der Konsole lesen.

Wie man PDF-Dateien in Python liest: Abbildung 5

Schritt 9 Zweite PDF-Datei laden

Genau wie Sie das erste PDF-Dokument geladen haben, können Sie auch ein zweites PDF-Dokument laden. Diese Funktion ist nützlich, wenn Sie mehrere PDF-Dateien bearbeiten möchten:

pdf_2 = PdfDocument.FromFile("PDF A.pdf")
pdf_2 = PdfDocument.FromFile("PDF A.pdf")
PYTHON

In diesem Code ist pdf_2 ein weiteres PdfDocument-Objekt, das die zweite PDF-Datei darstellt.

Schritt 10 Beide Dateien zusammenführen

Eine der leistungsstarken Funktionen von IronPDF ist das Zusammenführen mehrerer PDF-Dateien zu einer einzigen neuen PDF-Datei. Sie können zwei oder mehr PDF-Dokumente einfach mit der Methode PdfDocument.Merge kombinieren:

merged = PdfDocument.Merge(pdf, pdf_2)  # Merges pdf and pdf_2 documents
merged.SaveAs("Merged.pdf")  # Saves the merged document as 'Merged.pdf'
merged = PdfDocument.Merge(pdf, pdf_2)  # Merges pdf and pdf_2 documents
merged.SaveAs("Merged.pdf")  # Saves the merged document as 'Merged.pdf'
PYTHON

In diesem Beispiel ist merged ein neues PdfDocument-Objekt, das das Ergebnis des Zusammenführens von pdf und pdf_2 ist. Die Methode SaveAs speichert dann dieses zusammengeführte Dokument unter dem Namen "Merged.pdf".

Wie man PDF-Dateien in Python liest: Abbildung 6

Schritt 11 Erstes PDF teilen

IronPDF ermöglicht es Ihnen auch, ein PDF-Dokument zu teilen und bestimmte Seiten in neue PDF-Dateien zu extrahieren. Dies erfolgt mit der Methode CopyPage:

page1doc = pdf.CopyPage(0)  # Copies the first page of the pdf document
page1doc.SaveAs("Split1.pdf")  # Saves the copied page as a new document 'Split1.pdf'
page1doc = pdf.CopyPage(0)  # Copies the first page of the pdf document
page1doc.SaveAs("Split1.pdf")  # Saves the copied page as a new document 'Split1.pdf'
PYTHON

Hier enthält page1doc ein neues PdfDocument-Objekt, das die erste Seite des pdf-Dokuments enthält. Diese Seite wird dann als Ausgabepdf mit dem Namen "Split1.pdf" gespeichert.

Wie man PDF-Dateien in Python liest: Abbildung 7

Schritt 12 Wasserzeichen anwenden

Das Anbringen von Wasserzeichen ist eine weitere beeindruckende Funktion, die IronPDF bietet. Sie können Ihr PDF-Dokument mit dem gewünschten Text oder Bild als Wasserzeichen versehen. Die Methode ApplyWatermark wird verwendet, um ein Wasserzeichen auf die vom pdf-Objekt dargestellte PDF-Datei hinzuzufügen.

pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center)
pdf.SaveAs("Watermarked.pdf")
pdf.ApplyWatermark("<h2 style='color:red'>SAMPLE</h2>", 30, VerticalAlignment.Middle, HorizontalAlignment.Center)
pdf.SaveAs("Watermarked.pdf")
PYTHON

In diesem Snippet versieht ApplyWatermark die PDF-Datei mit einem roten Wasserzeichen mit dem Text "SAMPLE" in der Mitte des Dokuments. Dann speichert SaveAs das Wasserzeichen-Dokument als "Watermarked.pdf".

IronPDF-Kompatibilität

IronPDF ist eine vielseitige Python-Bibliothek, die mit einer Vielzahl von Python-Versionen kompatibel ist. Es unterstützt alle modernen Python-Versionen ab Python 3.6. IronPDF ist nicht auf ein einziges Betriebssystem beschränkt. Es ist plattformunabhängig und kann daher auf verschiedenen Betriebssystemen verwendet werden. Ob Windows, Mac oder Linux, IronPDF arbeitet nahtlos auf diesen Plattformen. Diese plattformübergreifende Kompatibilität ist ein großer Vorteil, der IronPDF zu einer bevorzugten Wahl für Entwickler macht, unabhängig von ihren Betriebssystemvorlieben.

Abschluss

Abschließend ist IronPDF eine ausgezeichnete Python-Bibliothek, die den Umgang mit PDF-Dokumenten vereinfacht. Egal, ob Sie mehrere PDFs zusammenführen, Text extrahieren, PDF-Dateien teilen oder Wasserzeichen anwenden müssen, IronPDF hat alles, was Sie brauchen. Die Kompatibilität mit mehreren Plattformen und die einfache Handhabung machen es zu einem wertvollen Werkzeug für jeden Entwickler, der mit PDF-Dokumenten arbeitet.

IronPDF bietet eine kostenlose Testversion an. Diese Testphase gibt Ihnen ausreichend Gelegenheit, mit ihren Funktionen zu experimentieren und ihre Eignung für Ihre spezifischen Bedürfnisse zu bewerten. Nachdem Sie es getestet haben, können Sie eine Lizenz ab $799 erwerben.

Curtis Chau
Technischer Autor

Curtis Chau hat einen Bachelor-Abschluss in Informatik von der Carleton University und ist spezialisiert auf Frontend-Entwicklung mit Expertise in Node.js, TypeScript, JavaScript und React. Leidenschaftlich widmet er sich der Erstellung intuitiver und ästhetisch ansprechender Benutzerschnittstellen und arbeitet gerne mit modernen Frameworks sowie der Erstellung gut strukturierter, optisch ansprechender ...

Weiterlesen