Test in einer Live-Umgebung
Test in der Produktion ohne Wasserzeichen.
Funktioniert überall, wo Sie es brauchen.
Moderne Bibliotheken haben die PDF-Erstellung rationalisiert. Bei der Auswahl einer Bibliothek für PDF-Projekte sollten Sie die Erstellungs-, Lese- und Konvertierungsfähigkeiten für optimale Integration und Leistung berücksichtigen. Python bietet Tools wie IronPDF, die bestehende PDFs effizient analysieren können.
Python ist eine Programmiersprache, die es Entwicklern ermöglicht, schnell und einfach grafische Benutzeroberflächen zu erstellen. Im Vergleich zu anderen Sprachen bietet sie eine größere Dynamik für Programmierer. Daher ist die Integration der IronPDF-Bibliothek in Python ein unkomplizierter Prozess.
Um schnell und sicher eine voll funktionsfähige grafische Benutzeroberfläche zu erstellen, können Entwickler verschiedene vorinstallierte Tools nutzen, darunter PyQt, wxWidgets, Kivy und viele andere Pakete und Bibliotheken. Es sei darauf hingewiesen, dass IronPDF keine reine Python PDF-Bibliothek ist; stattdessen ermöglicht es die Integration verschiedener Funktionen aus anderen Frameworks wie .NET Core.
IronPDF vereinfacht Python-Webdesign und -Entwicklung, insbesondere aufgrund der Beliebtheit von Python-Webentwicklungsparadigmen wie Django, Flask und Pyramid. Namhafte Websites und Online-Dienste wie Reddit, Mozilla und Spotify haben diese Frameworks genutzt. Mehr über Python in IronPDF erfahren Sie in derIronPDF für Python Website.
Stellen Sie sicher, dass Python auf Ihrem PC installiert ist. Besuchen Sie dieoffizielle Python-Website um die neueste Version von Python herunterzuladen und zu installieren, die für Ihr Betriebssystem geeignet ist. Sobald Python installiert ist, richten Sie eine virtuelle Umgebung ein, um die Abhängigkeiten für Ihr Projekt zu isolieren. Verwenden Sie das Modul "venv", um virtuelle Umgebungen zu erstellen und zu verwalten und Ihrem Konvertierungsprojekt einen sauberen und unabhängigen Arbeitsbereich zu bieten.
Wir werden PyCharm, eine IDE zum Schreiben von Python-Code, für diese Demonstration verwenden.
Klicken Sie auf "Neues Projekt", nachdem Sie die PyCharm IDE gestartet haben.
Der PyCharm-Willkommensbildschirm
Wenn Sie "Neues Projekt" auswählen, erscheint ein neues Fenster, in dem Sie den Speicherort des Projekts und dessen Umgebung angeben können. Dieses neue Fenster ist im nachstehenden Screenshot zu sehen.
Der neue Projektbildschirm in PyCharm
Klicken Sie auf die Schaltfläche Erstellen, um ein neues Projekt zu starten, nachdem Sie den Projektstandort und den Umgebungspfad festgelegt haben. Daraufhin wird ein neues Fenster geöffnet, in dem das Programm entwickelt werden kann. Dieses Tutorial empfiehlt Python 3.9.
Eine Hauptdatei in PyCharm geöffnet
IronPDF, eine Python-Bibliothek, basiert hauptsächlich auf .NET 6.0. Daher muss auf Ihrem PC die .NET 6.0-Laufzeitumgebung installiert sein, um IronPDF für Python zu nutzen. Bevor Linux- und Mac-Benutzer dieses Python-Modul verwenden können, muss möglicherweise .NET installiert werden. Die benötigte Laufzeitumgebung erhalten Sie über den.NET-Website.
Das Paket "ironpdf" muss installiert werden, um Dateien mit der Endung ".pdf" erstellen, bearbeiten und öffnen zu können. Um das Paket in PyCharm zu installieren, öffnen Sie ein Terminalfenster und geben Sie den folgenden Befehl ein:
pip install ironpdf
Der Screenshot unten zeigt die Einrichtung des Pakets "ironpdf".
Ein Terminal, das die Installation von IronPDF mit pip zeigt
Mit Hilfe der IronPDF-Bibliotheken ist es möglich, Text aus PDF-Dateien zu extrahieren. IronPDF bietet verschiedene Techniken zur Textextraktion. Beim ersten Ansatz wird der gesamte Inhalt der Seite als eine einzige Zeichenfolge abgerufen. Bei der zweiten Methode wird der Inhalt Seite für Seite gelesen, beginnend mit der ersten Seite. Das folgende Codeschnipsel demonstriert ein Muster für die Überprüfung von aktuellen PDF-Dateien mit IronPDF.
Es gibt zwei Methoden, um Daten aus einer PDF zu extrahieren:
Extrahieren aus der PDF-Datei nach Seiten.
Extrahieren der gesamten PDF-Datei als Text.
Nachstehend finden Sie die PDF-Datei, die wir für diesen Artikel verwenden werden. Sie hat zwei Seiten.
Eine PDF mit der Seitenzahl oben auf jeder Seite
Das nachstehende Codebeispiel zeigt, wie die Seitenzahl zum Abrufen von Daten aus einer PDF-Datei verwendet werden kann.
from ironpdf import *
pdfDocument = PdfDocument.FromFile("F:\\PDF\\1.pdf")
AllText = pdfDocument.ExtractTextFromPage(0)
print(AllText)
Das Codeschnipsel demonstriert die Verwendung der FromFile-Funktion zum Lesen einer PDF-Datei und zum Erstellen eines PDF-Dokumentobjekts. Dieses Objekt ermöglicht den Zugriff auf Texte und Bilder innerhalb der PDF. Um den Text von einer bestimmten Seite zu extrahieren, kann die Methode ExtractTextFromPage
verwendet werden, indem die Seitenzahl als Parameter übergeben wird. Diese Methode gibt eine Zeichenkette mit allen Wörtern der angegebenen Seite zurück. Die Ausgabe wird wie folgt angezeigt.
Ein Screenshot des Terminals mit der Textausgabe "Seite 1"
Der rechteckige Kasten, der im Ergebnis hervorgehoben ist, ist der aus der PDF-Datei extrahierte Text auf der Seite Nummer 1, die den Index 0 hat.
Der erste Ansatz, um schnell und einfach den gesamten PDF-Inhalt als String zu erhalten, wird im folgenden Codebeispiel gezeigt.
# creating a PDF file object
pdf = PdfDocument.FromFile('F:\\PDF\\1.pdf')
all_text = pdf.ExtractAllText()
print(all_text)
Der oben gezeigte Beispielcode erklärt, wie man ein PDF von einem bestehenden Dateipfad liest und es mit der FromFile
-Funktion in ein PDF-Dateiobjekt umwandelt. Der einfache Text der PDF-Datei wird extrahiert und mit der ExtractAllText
-Funktion des Objekts in einen String umgewandelt, und der extrahierte Text wird im Terminal ausgegeben. Das Ergebnis wird wie folgt angezeigt.
Ein Bildschirmfoto des Terminals mit Textausgabe "Seite 1" und "Seite 2"
Die im Ergebnis hervorgehobenen rechteckigen Felder enthalten den aus allen Seiten der PDF-Datei extrahierten Text.
Mit Hilfe von IronPDF können wir PDFs mit C# erstellen. Um mehr über IronPDF zu erfahren, besuchen Sie dieIronPDF-Website.
Um Risiken zu minimieren und den Datenschutz zu gewährleisten, bietet die IronPDF-Bibliothek strenge Sicherheitsmaßnahmen. Sie ist mit allen gängigen Browsern kompatibel und nicht auf einen einzigen beschränkt. IronPDF ermöglicht es Programmierern, PDF-Dateien mit nur wenigen Zeilen Code zu erstellen und zu lesen. Um den unterschiedlichen Anforderungen von Entwicklern gerecht zu werden, bietet die IronPDF-Bibliothek eine Vielzahl von Lizenzierungsoptionen, darunter eine kostenlose Entwicklerlizenz und zusätzliche Entwicklungslizenzen, die käuflich erworben werden können.
Das $749 Lite-Paket enthält eine unbefristete Lizenz, eine 30-Tage-Geld-zurück-Garantie, ein Jahr Software-Support und Upgrade-Möglichkeiten. Über den ersten Kauf hinaus fallen keine weiteren Kosten an. Die Produktions-, Staging- und Entwicklungsumgebungen nutzen alle diese Lizenzen. IronPDF bietet auch kostenlose Lizenzen mit einigen Zeit- und Weiterverbreitungsbeschränkungen an. Während der kostenlosen Testphase können die Nutzer das Produkt ohne Wasserzeichen in der Praxis testen. Weitere Einzelheiten zu den Kosten und der Lizenzierung der IronPDF-Testversion finden Sie auf der WebsiteIronPDF-Lizenzierungsseite.
9 .NET API-Produkte für Ihre Bürodokumente