Zum Fußzeileninhalt springen
VERWENDUNG VON IRONPDF FüR PYTHON

Wie man eine PDF-Datei in Python parst

1.0 Einführung

Moderne Bibliotheken haben die PDF-Erstellung vereinfacht. Bei der Auswahl einer Bibliothek für PDF-Projekte sollten Sie auf Build-, Lese- und Konvertierungsfunktionen achten, um eine optimale Integration und Leistung zu gewährleisten. Python bietet Tools wie IronPDF, mit denen vorhandene PDF-Dateien effizient analysiert werden können.

2.0 IronPDF

Python ist eine Programmiersprache, die es Entwicklern ermöglicht, schnell und einfach grafische Benutzeroberflächen zu erstellen. Im Vergleich zu anderen Sprachen bietet sie eine größere Dynamik für Programmierer. Daher ist die Integration der IronPDF-Bibliothek in Python ein unkomplizierter Prozess.

Um schnell und sicher eine voll funktionsfähige grafische Benutzeroberfläche zu erstellen, können Entwickler mehrere vorinstallierte Tools nutzen, darunter PyQt, wxWidgets, Kivy und viele andere Pakete und Bibliotheken. Es sei darauf hingewiesen, dass IronPDF keine reine Python-PDF-Bibliothek ist; stattdessen ermöglicht sie die Einbeziehung verschiedener Funktionen anderer Frameworks wie .NET Core.

IronPDF vereinfacht Python-Webdesign und -Entwicklung, insbesondere aufgrund der Beliebtheit von Python-Webentwicklungsparadigmen wie Django, Flask und Pyramid. Namhafte Websites und Online-Dienste, darunter Reddit, Mozilla und Spotify, haben diese Frameworks verwendet. Mehr über Python in IronPDF erfahren Sie auf der IronPDF for Python Website.

2.1 Merkmale von IronPDF

  • IronPDF ist in der Lage, PDF-Dateien aus verschiedenen Quellen zu erzeugen, darunter HTML, HTML5, ASPX und Razor/MVC View. Es bietet Funktionen zur Erstellung von PDFs aus HTML-Seiten und Bildern.
  • The IronPDF toolkit offers a range of tools for tasks such as creating interactive PDFs, filling and submitting interactive forms, split and combine PDF files, extract text and images from PDF files, search for certain words within a PDF file, rasterize PDF pages to images, convert PDF to HTML.
  • IronPDF unterstützt User-Agents, Proxies, Cookies, HTTP-Header und Shape-Variablen und ermöglicht die Validierung von HTML-Anmeldeformularen.
  • Zugang zu geschützten Dokumenten in IronPDF wird durch die Verwendung von Benutzernamen und Passwörtern gewährt.
  • IronPDF hilft bei der Erzeugung von PDF-Dateien und Drucken mit nur wenigen Zeilen Code aus verschiedenen Quellen wie Strings, Streams, URLs usw.

3.0 Python einrichten

3.1 Einrichtung der Umgebung

Stellen Sie sicher, dass Python auf Ihrem PC installiert ist. Besuchen Sie die offizielle Python-Website, um die neueste, für Ihr Betriebssystem geeignete Version von Python herunterzuladen und zu installieren. Sobald Python installiert ist, richten Sie eine virtuelle Umgebung ein, um die Abhängigkeiten für Ihr Projekt zu isolieren. Verwenden Sie das Modul "venv", um virtuelle Umgebungen zu erstellen und zu verwalten und Ihrem Konvertierungsprojekt einen sauberen und unabhängigen Arbeitsbereich zu bieten.

3.2 Neues Projekt in PyCharm

Wir werden PyCharm, eine IDE zum Schreiben von Python-Code, für diese Demonstration verwenden.

Klicken Sie auf "Neues Projekt", nachdem Sie die PyCharm IDE gestartet haben.

How to Parse A PDF File in Python, Abbildung 1: Der PyCharm Willkommensbildschirm Der PyCharm-Willkommensbildschirm

Wenn Sie "Neues Projekt" wählen, öffnet sich ein neues Fenster, in dem Sie den Speicherort und die Umgebung des Projekts angeben können. Dieses neue Fenster ist auf dem folgenden Screenshot zu sehen.

How to Parse A PDF File in Python, Abbildung 2: Der neue Projektbildschirm in PyCharm Der neue Projektbildschirm in PyCharm

Klicken Sie auf die Schaltfläche Erstellen, um ein neues Projekt zu starten, nachdem Sie den Projektstandort und den Umgebungspfad festgelegt haben. Damit wird ein neues Fenster geöffnet, in dem das Programm entwickelt werden kann. Für dieses Tutorial wurde Python 3.9 empfohlen.

How to Parse A PDF File in Python, Abbildung 3: Eine in PyCharm geöffnete Hauptdatei Eine in PyCharm geöffnete Hauptdatei

3.3 IronPDF-Bibliotheksanforderung

IronPDF, eine Python-Bibliothek, stützt sich hauptsächlich auf .NET 6.0. Um IronPDF for Python nutzen zu können, muss daher auf Ihrem PC die .NET 6.0-Laufzeitumgebung installiert sein. Bevor Linux- und Mac-Benutzer dieses Python-Modul verwenden können, muss möglicherweise .NET installiert werden. Die erforderliche Laufzeitumgebung können Sie von der .NET-Website beziehen.

3.4 Einrichtung der IronPDF-Bibliothek

Das Paket "IronPdf" muss installiert sein, um Dateien mit der Erweiterung ".pdf" erstellen, bearbeiten und öffnen zu können. Um das Paket in PyCharm zu installieren, öffnen Sie ein Terminalfenster und geben Sie den folgenden Befehl ein:

pip install ironpdf
pip install ironpdf
SHELL

Der Screenshot unten zeigt die Einrichtung des Pakets "IronPdf".

How to Parse A PDF File in Python, Abbildung 4: Ein Terminal zeigt die Installation von IronPDF mit pip Ein Terminal, das die Installation von IronPDF mit pip zeigt

4.0 PDF parsen mit IronPDF

Mit Hilfe der IronPDF-Bibliotheken ist es möglich, Text aus PDF-Dateien zu extrahieren. IronPDF bietet verschiedene Techniken zur Textextraktion. Der erste Ansatz besteht darin, den gesamten Inhalt der Seite als eine einzige Zeichenkette abzurufen. Bei der zweiten Methode wird der Inhalt Seite für Seite gelesen, beginnend mit der ersten Seite. Das folgende Codeschnipsel demonstriert ein Muster für die Überprüfung von aktuellen PDF-Dateien mit IronPDF.

Es gibt zwei Methoden, um Daten aus einer PDF-Datei zu extrahieren:

  1. Seitenweises Extrahieren aus der PDF-Datei.
  2. Extrahieren der gesamten PDF-Datei als Text.

Im Folgenden finden Sie die PDF-Datei, die wir für diesen Artikel verwenden werden. Sie hat zwei Seiten.

How to Parse A PDF File in Python, Abbildung 5: Ein PDF mit der Seitenzahl am oberen Rand jeder Seite Eine PDF-Datei mit der Seitenzahl oben auf jeder Seite

4.0.1 TEXT EXTRACTION NACH SEITEN

Der unten stehende Beispielcode zeigt, wie die Seitenzahl zum Abrufen von Daten aus einer PDF-Datei verwendet werden kann.

from ironpdf import PdfDocument

# Open a PDF file and create a PDF document object
pdfDocument = PdfDocument.FromFile("F:\\PDF\\1.pdf")

# Extract text from the first page (index 0)
AllText = pdfDocument.ExtractTextFromPage(0)

# Print the extracted text from the first page
print(AllText)
from ironpdf import PdfDocument

# Open a PDF file and create a PDF document object
pdfDocument = PdfDocument.FromFile("F:\\PDF\\1.pdf")

# Extract text from the first page (index 0)
AllText = pdfDocument.ExtractTextFromPage(0)

# Print the extracted text from the first page
print(AllText)
PYTHON

Das Codeschnipsel demonstriert die Verwendung der Funktion FromFile, um eine PDF-Datei zu lesen und ein PDF-Dokumentobjekt zu erstellen. Dieses Objekt ermöglicht den Zugriff auf Texte und Bilder innerhalb der PDF-Datei. Um den Text aus einer bestimmten Seite zu extrahieren, kann die Methode ExtractTextFromPage verwendet werden, indem die Seitennummer als Parameter angegeben wird. Diese Methode gibt eine Zeichenkette zurück, die alle Wörter der angegebenen Seite enthält. Die Ausgabe wird wie unten dargestellt.

How to Parse A PDF File in Python, Abbildung 6: Ein Screenshot des Terminals mit der Textausgabe Page 1 Ein Bildschirmfoto des Terminals mit der Textausgabe "Seite 1"

Der rechteckige Kasten, der im Ergebnis hervorgehoben ist, ist der aus der PDF-Datei extrahierte Text auf der Seite Nummer 1, die den Index 0 hat.

4.0.2 AUSZUG AUS ALLER SEITE

Der erste Ansatz, um schnell und einfach den gesamten PDF-Inhalt als String zu erhalten, wird im folgenden Codebeispiel gezeigt.

from ironpdf import PdfDocument

# Create a PDF file object from the file path
pdf = PdfDocument.FromFile('F:\\PDF\\1.pdf')

# Extract all text from the entire PDF
all_text = pdf.ExtractAllText()

# Print the extracted text from the entire PDF
print(all_text)
from ironpdf import PdfDocument

# Create a PDF file object from the file path
pdf = PdfDocument.FromFile('F:\\PDF\\1.pdf')

# Extract all text from the entire PDF
all_text = pdf.ExtractAllText()

# Print the extracted text from the entire PDF
print(all_text)
PYTHON

Der oben gezeigte Beispielcode erklärt, wie eine PDF-Datei aus einem vorhandenen Dateipfad gelesen und mit der Funktion FromFile in ein PDF-Dateiobjekt umgewandelt wird. Der Klartext der PDF-Datei wird extrahiert und mit der Funktion ExtractAllText des Objekts in eine Zeichenkette umgewandelt, und der extrahierte Text wird auf dem Terminal ausgegeben. Das Ergebnis wird wie unten dargestellt.

How to Parse A PDF File in Python, Abbildung 7: Ein Screenshot des Terminals mit Textausgabe Seite 1 und Seite 2 Ein Screenshot des Terminals mit der Textausgabe "Seite 1", und "Seite 2"

Die rechteckigen Felder, die im Ergebnis hervorgehoben sind, enthalten den aus allen Seiten der PDF-Datei extrahierten Text.

Wir sind in der Lage, mit Hilfe von IronPDF PDFs in C# zu erstellen. Um mehr über IronPDF zu erfahren, besuchen Sie die IronPDF-Website.

5.0 Fazit

Um Risiken zu minimieren und den Datenschutz zu gewährleisten, bietet die IronPDF-Bibliothek starke Sicherheitsmaßnahmen. Sie ist mit allen gängigen Browsern kompatibel und nicht auf einen einzigen beschränkt. IronPDF ermöglicht es Programmierern, PDF-Dateien mit nur wenigen Zeilen Code zu erstellen und zu lesen. Um den unterschiedlichen Bedürfnissen der Entwickler gerecht zu werden, bietet die IronPDF-Bibliothek eine Reihe von Lizenzierungsoptionen, darunter eine kostenlose Entwicklerlizenz und zusätzliche Entwicklungslizenzen, die käuflich erworben werden können.

Das $799 Lite-Paket enthält eine unbefristete Lizenz, eine 30-Tage-Geld-zurück-Garantie, ein Jahr Software-Support und Upgrade-Möglichkeiten. Über den ersten Kauf hinaus fallen keine weiteren Kosten an. Diese Lizenzen werden in Produktions-, Staging- und Entwicklungsumgebungen eingesetzt. IronPDF bietet auch kostenlose Lizenzen mit einigen zeitlichen Einschränkungen und Einschränkungen bei der Weiterverbreitung an. Während der kostenlosen Testphase können die Benutzer das Produkt ohne Wasserzeichen in der Praxis testen. Weitere Einzelheiten zu den Kosten und der Lizenzierung der IronPDF-Testversion finden Sie auf der Lizenzierungsseite für IronPDF.

Häufig gestellte Fragen

Wie kann ich PDF-Dokumente mit Python parsen?

Sie können PDF-Dokumente in Python mit IronPDF parsen. Die Bibliothek ermöglicht es Ihnen, ein PDF-Dokumentenobjekt zu erstellen und Methoden wie ExtractTextFromPage zu verwenden, um Text von bestimmten Seiten zu extrahieren oder ExtractAllText, um Text aus dem gesamten Dokument zu extrahieren.

Was sind die Voraussetzungen, um IronPDF in einer Python-Umgebung auszuführen?

Um IronPDF in einer Python-Umgebung auszuführen, müssen Sie das .NET 6.0 Laufzeitumgebung auf Ihrem System installiert haben, da IronPDF auf .NET für seine Operationen angewiesen ist.

Kann IronPDF mit beliebten Python-Web-Frameworks verwendet werden?

Ja, IronPDF integriert sich nahtlos mit beliebten Python-Web-Frameworks wie Django, Flask und Pyramid und ist damit ein vielseitiges Werkzeug für Webentwicklungsprojekte.

Wie installiert man IronPDF in einer Python-Virtual-Umgebung?

Um IronPDF in einer Python-Virtual-Umgebung zu installieren, stellen Sie zuerst sicher, dass Sie Python installiert haben und erstellen Sie eine virtuelle Umgebung. Verwenden Sie den Befehl pip install ironpdf im Terminal Ihrer IDE, um das Paket zu installieren.

Was sind einige der Hauptfunktionen von IronPDF für Python-Entwickler?

IronPDF bietet Funktionen wie das Erzeugen von PDFs aus HTML, Bildern, Zeichenketten und Streams, das Erstellen interaktiver PDFs, das Ausfüllen von Formularen, das Aufteilen und Zusammenfügen von PDFs sowie das Extrahieren von Text und Bildern.

Ist IronPDF mit verschiedenen Betriebssystemen kompatibel?

Ja, IronPDF ist mit verschiedenen Betriebssystemen kompatibel. Linux- und Mac-Benutzer müssen jedoch sicherstellen, dass .NET auf ihren Systemen installiert ist, um das Python-Modul verwenden zu können.

Welche Lizenzoptionen gibt es für IronPDF?

IronPDF bietet verschiedene Lizenzierungsoptionen, einschließlich einer kostenlosen Entwicklerlizenz mit Einschränkungen und einem kostenpflichtigen Lite-Paket mit einer unbefristeten Lizenz und einer 30-Tage-Geld-zurück-Garantie. Diese Optionen bieten je nach Entwicklungsbedürfnissen Flexibilität.

Wie richtet man ein neues IronPDF-Projekt in PyCharm ein?

Um ein neues IronPDF-Projekt in PyCharm einzurichten, öffnen Sie die IDE, klicken Sie auf 'Neues Projekt' und konfigurieren Sie den Speicherort und die Umgebung des Projekts. Verwenden Sie das Terminal in PyCharm, um IronPDF mit pip install ironpdf zu installieren.

Wie stellt IronPDF die Sicherheit von PDF-Dokumenten sicher?

IronPDF integriert starke Sicherheitsmaßnahmen, um die Sicherheit und Integrität von PDF-Dokumenten zu gewährleisten, und ist damit eine zuverlässige Wahl für Anwendungen, die PDF-Verarbeitung erfordern.

Kann IronPDF verwendet werden, um Bilder von PDFs zu extrahieren?

Ja, IronPDF kann verwendet werden, um Bilder aus PDFs zu extrahieren, indem auf das Dokumentenobjekt zugegriffen und die entsprechenden Methoden zur Erfassung von Bilddaten verwendet werden.

Curtis Chau
Technischer Autor

Curtis Chau hat einen Bachelor-Abschluss in Informatik von der Carleton University und ist spezialisiert auf Frontend-Entwicklung mit Expertise in Node.js, TypeScript, JavaScript und React. Leidenschaftlich widmet er sich der Erstellung intuitiver und ästhetisch ansprechender Benutzerschnittstellen und arbeitet gerne mit modernen Frameworks sowie der Erstellung gut strukturierter, optisch ansprechender ...

Weiterlesen