Test in einer Live-Umgebung
Test in der Produktion ohne Wasserzeichen.
Funktioniert überall, wo Sie es brauchen.
Wenn es um den Austausch von Dokumenten und die Verarbeitung von Daten geht, ist das von Adobe geschaffene Portable Document Format (PDF) datei ist von entscheidender Bedeutung für die Wahrung der Integrität von textreichen und ästhetisch ansprechenden Inhalten. Für den Zugriff auf Online-PDF-Dokumente ist in der Regel ein bestimmtes Programm mit den erforderlichen Modulen erforderlich. In der heutigen Zeit sind PDF-Dateien für viele wichtige digitale Veröffentlichungen erforderlich. Für die Erstellung von Geschäftspapieren und Rechnungen verwenden viele Unternehmen PDF-Dateien. Um bestimmte Kundenanforderungen zu erfüllen, wie z. B. die Extraktion von Daten, verwenden Entwickler häufig Bibliotheken zur Erstellung von PDF-Dokumenten.
Die Entwicklung moderner Bibliotheken hat die Erstellung von PDF-Dateien und die Extraktion von Text erleichtert. Um eine nahtlose Integration und eine optimale Leistung zu erreichen, ist es wichtig, bei der Auswahl der richtigen Bibliothek für ein Projekt, das die PDF-Erzeugung beinhaltet, die Fähigkeiten zum Erstellen, Lesen, Extrahieren von Daten aus PDF-Dateien und zur Konvertierung zu berücksichtigen. Mit Python können Sie ein vorhandenes PDF-Dokument analysieren und den Seitentext daraus extrahieren. Es gibt verschiedene Python-Bibliotheken, die verfügbar sind. IronPDF ist eine leistungsstarke Bibliothek, die unter anderem Text und Bilder aus PDF-Dateien extrahieren kann.
In diesem Artikel werden wir Textelemente aus PDF-Dokumenten mit Hilfe der IronPDF for Python-Bibliothek extrahieren.
Python ist eine Programmiersprache, die es Entwicklern ermöglicht, einfach und schnell grafische Benutzeroberflächen zu erstellen. Im Vergleich zu anderen Sprachen ist Python auch viel dynamischer für Programmierer. Aus diesem Grund ist das Hinzufügen der IronPDF-Bibliothek zu Python ein einfacher Prozess. Eine Vielzahl von vorinstallierten Tools, darunter PyQt, wxWidgets, Kivy und viele weitere Pakete und Python-Bibliotheken, können verwendet werden, um schnell und sicher eine vollständige GUI zu erstellen. IronPDF for Python ermöglicht die Integration von Funktionen aus anderen Frameworks, wie z. B. .NET Core.
IronPDF macht die Webentwicklung einfacher. Der Hauptgrund dafür ist die weite Verbreitung von Python-Webentwicklungsparadigmen wie Django, Flask und Pyramid. Reddit, Mozilla und Spotify sind nur einige der Websites und Online-Dienste, die diese Frameworks verwendet haben.
Stellen Sie sicher, dass Python auf Ihrem Computer installiert ist. Um die neueste Version von Python, die mit Ihrem Betriebssystem kompatibel ist, herunterzuladen und zu installieren, besuchen Sie die offizielle Python website. Erstellen Sie eine virtuelle Umgebung, sobald Python installiert ist, um die Anforderungen Ihres Projekts zu trennen. Erstellen und verwalten Sie virtuelle Umgebungen mit dem venv-Modul, um Ihrem Konvertierungsprojekt einen aufgeräumten, separaten Arbeitsplatz zu geben.
Für diese Demonstration werden wir PyCharm verwenden, eine IDE für die Entwicklung von Python-Code.
Nach dem Start der PyCharm IDE wählen Sie "Neues Projekt".
Wenn Sie "Neues Projekt" wählen, öffnet sich ein neues Fenster, in dem Sie den Ort und die Umgebung des Projekts festlegen können. Dies ist in der nachstehenden Abbildung zu sehen.
Nachdem Sie den Projektstandort und den Umgebungspfad ausgewählt haben, klicken Sie auf die Schaltfläche "Erstellen", um ein neues Projekt zu beginnen. Das Programm kann dann in einem neuen Fenster erstellt werden, das sich daraufhin öffnet. Für diese Lektion wird Python 3.9 verwendet.
Die Python-Bibliothek IronPDF nutzt weitgehend .NET 6.0. Daher muss die .NET 6.0-Laufzeitumgebung auf Ihrem Computer installiert sein, um IronPDF for Python nutzen zu können. Es kann notwendig sein, .NET zu installieren, bevor dieses Python-Modul von Linux- und Mac-Benutzern verwendet werden kann. Besuchen Sie diese seite um die benötigte Laufzeitumgebung zu erhalten.
Um Dateien mit der Erweiterung ".pdf" zu erzeugen, zu ändern und zu öffnen, muss das Paket "ironpdf" installiert sein. Öffnen Sie ein Terminalfenster und geben Sie den folgenden Befehl ein, um das Paket in PyCharm zu installieren:
:PackageInstall
Die Installation des Pakets ironpdf
ist in der folgenden Abbildung dargestellt.
Mit Hilfe der IronPDF-Bibliotheken können wir auch Text aus PDF-Dateien extrahieren. IronPDF bietet eine Reihe von Textextraktionsmethoden. Bei der ersten Methode wird der gesamte Inhalt der Seite als eine einzige Zeichenkette abgerufen. Die zweite Strategie besteht darin, den Inhalt Seite für Seite durchzugehen, beginnend mit der ersten Seite. Vorhandene PDF-Dateien können mit der IronPDF-Bibliothek untersucht werden. Der folgende Codeschnipsel zeigt, wie IronPDF verwendet wird, um Live-PDF-Dateien zu prüfen.
Es gibt zwei Möglichkeiten, Informationen aus einer PDF-Datei zu extrahieren:
Seitenweise Extraktion aus der PDF-Datei
Konvertierung der gesamten PDF-Datei in Text
Die PDF-Datei, die wir für diesen Artikel verwenden werden, finden Sie unten.
Der nachstehende Beispielcode zeigt, wie man Daten aus einer PDF-Datei anhand der Seitenzahl erhält.
from ironpdf import *
# # PDF object
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# # Extract text from PDF document
all_text = pdf.ExtractTextFromPage(0)
for _data in all_text.split('\n'):
if('Name' in _data):
print(_data)
Das Codeschnipsel zeigt, wie man eine PDF-Datei liest und ein PDF-Objekt mit der Funktion "FromFile" erstellt. Über dieses Objekt können wir auf den Text und die Fotos der PDF-Datei zugreifen. Durch Übergabe der Seitennummer als Parameter an die Funktion "ExtractTextFromPage" kann der Text einer bestimmten Seite abgerufen werden. Diese Methode gibt eine Zeichenkette zurück, die alle Wörter der gewählten Seite enthält. Dann verwenden wir die Funktion split
in Python, um alle neuen Zeilen aus dem extrahierten Text zu trennen. Anschließend wird geprüft, ob jede Zeile des extrahierten Textes die gesuchten Schlüsselwörter enthält. Wenn das Schlüsselwort passt, wird die entsprechende Zeile in der Eingabeaufforderung angezeigt. Andernfalls wird diese Zeile ignoriert und mit der nächsten Zeile fortgefahren. Die Ausgabe für die Textextraktion wird wie unten gezeigt angezeigt.
Das folgende Codebeispiel demonstriert die erste Methode, um schnell und einfach den gesamten PDF-Inhalt als String zu erhalten.
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# # Extracting texts from PDF document
all_text = pdf.ExtractAllText()
for _data in all_text.split('\n'):
if('Name' in _data):
print(_data)
Der obige Beispielcode zeigt, wie die Funktion "FromFile" verwendet wird, um eine PDF-Datei aus einem vorhandenen Dateipfad zu lesen und in ein PDF-Dateiobjekt zu konvertieren. Daher können wir dieses PDF-Reader-Objekt verwenden, um den Text und die Bilder in der PDF-Datei zu sehen. Die Funktion "ExtractAllText" des Objekts wird verwendet, um Daten aus dem PDF-Dokument in einen reinen Text zu extrahieren, diesen in eine Zeichenkette umzuwandeln und die ähnliche Logik wie oben zu verwenden, um das spezifische Schlüsselwort zu finden und das Ergebnis im Terminal anzuzeigen. Die Ergebnisse werden wie folgt angezeigt.
Der obige Code/Ausgabe zeigt, dass das gegebene PDF-Dokument sowohl den Namen als auch das Alter enthält, aber das Ergebnis zeigt nur den im PDF-Dokument vorhandenen Namen.
Die IronPDF-Bibliothek bietet starke Sicherheitsmechanismen, um Bedrohungen zu reduzieren und die Datensicherheit zu gewährleisten. Er ist nicht auf einen bestimmten Browser beschränkt und ist mit allen gängigen Browsern kompatibel. Mit nur wenigen Zeilen Code können Programmierer mit IronPDF schnell PDF-Dateien erzeugen und lesen. Die IronPDF-Bibliothek bietet eine Reihe von Lizenzierungsoptionen, darunter eine kostenlose Entwicklerlizenz und zusätzliche Entwicklungslizenzen, die käuflich erworben werden können, um den unterschiedlichen Anforderungen von Entwicklern gerecht zu werden.
Eine unbefristete Lizenz, eine 30-Tage-Geld-zurück-Garantie, ein Jahr Software-Wartung und Upgrade-Optionen sind im Preis enthalten Lite-Paket. Diese Lizenzen können in allen Umgebungen verwendet werden. Darüber hinaus bietet IronPDF kostenlose Lizenzen mit einigen Einschränkungen für die Weiterverbreitung an. A testlizenz ermöglicht es den Nutzern, das Produkt ohne Wasserzeichen zu bewerten.
Bitte ansicht der verfügbaren IronPDF-Lizenzen für weitere Informationen zur kommerziellen Lizenzierung.
9 .NET API-Produkte für Ihre Bürodokumente