VERWENDUNG VON IRONPDF FOR PYTHON

Wie man in Python bestimmten Text aus einer PDF-Datei extrahiert

Jordi Bardia

2. August 2023

Aktualisiert 21. September 2024

Teilen Sie:

In diesem Artikel wird gezeigt, wie man mit Hilfe der IronPDF for Python-Bibliothek Textelemente aus PDF-Dokumenten extrahieren kann.

IronPDF

Python ist eine Programmiersprache, die es Entwicklern ermöglicht, einfach und schnell grafische Benutzeroberflächen zu erstellen. Im Vergleich zu anderen Sprachen ist Python auch viel dynamischer für Programmierer. Aus diesem Grund ist das Hinzufügen der IronPDF-Bibliothek zu Python ein einfacher Prozess. Eine Vielzahl von vorinstallierten Tools, darunter PyQt, wxWidgets, Kivy und viele weitere Pakete und Python-Bibliotheken, können verwendet werden, um schnell und sicher eine vollständige GUI zu erstellen. IronPDF umfasst Python und ermöglicht auch die Integration von Funktionen aus anderen Frameworks, wie z. B. .NET Core.

IronPDF macht die Webentwicklung einfacher. Der Hauptgrund dafür ist die weite Verbreitung von Python-Webentwicklungsparadigmen wie Django, Flask und Pyramid. Reddit, Mozilla und Spotify sind nur einige der Websites und Online-Dienste, die diese Frameworks verwendet haben.

IronPDF-Funktionen

Mit IronPDF können PDF-Dateienaus einer Vielzahl von Quellen erstelltdazu gehören HTML, HTML5, ASPX und Razor/MVC View. Sie bietet die MöglichkeithTML-Seiten konvertieren undbilder in PDF-Dateien.
Erstellen interaktiver PDFs, Ausfüllen und EinreichenInteraktive Formulare, spaltung undkombinierenPDF-Dateien,extraktion von Text und Bildern, nach Text in PDF-Dateien suchen, Rasterisierung von PDFs in Bilderdas Ändern von Schriftgrößen, die Verarbeitung natürlicher Sprache mit ChatGPT und die Konvertierung von PDF-Seiten sind nur einige der Aktivitäten, bei denen das IronPDF-Toolkit helfen kann.
IronPDF bietet die Validierung von HTML-Anmeldeformularen mit Unterstützung für User-Agents, Proxies, Cookies, HTTP-Header und Formularvariablen.
IronPDF verwendet Benutzernamen und Kennwörter, um Benutzern Zugang zu folgenden Bereichen zu gewährengeschützte Dokumente.
Mit nur wenigen Codezeilen kann IronPDF eine PDF-Datei aus einer Vielzahl von Quellen drucken, darunter eine Zeichenkette, ein Stream oder eine URL.

Einrichtung Python

Umgebungskonfiguration

Stellen Sie sicher, dass Python auf Ihrem Computer installiert ist. Um die neueste Version von Python herunterzuladen und zu installieren, die mit Ihrem Betriebssystem kompatibel ist, besuchen Sie dieoffizielle Python-Website. Erstellen Sie eine virtuelle Umgebung, sobald Python installiert ist, um die Anforderungen Ihres Projekts zu trennen. Erstellen und verwalten Sie virtuelle Umgebungen mit dem Modul venv, um Ihrem Konvertierungsprojekt einen aufgeräumten, separaten Arbeitsplatz zu geben.

Neue Initiative in PyCharm

Für diese Demonstration wird PyCharm als IDE für die Entwicklung von Python-Code empfohlen.

Nach dem Start der PyCharm IDE wählen Sie "Neues Projekt".

Wie man in Python bestimmten Text aus einer PDF-Datei extrahiert, Abbildung 1: PyCharm

*PyCharm

Wenn Sie "Neues Projekt" wählen, öffnet sich ein neues Fenster, in dem Sie den Ort und die Umgebung des Projekts festlegen können. Dies ist in der nachstehenden Abbildung zu sehen.

Wie man in Python bestimmten Text aus PDF-Dateien extrahiert, Abbildung 2: Neues Projekt

Neues Projekt

Nachdem Sie den Projektstandort und den Umgebungspfad ausgewählt haben, klicken Sie auf die Schaltfläche Erstellen, um ein neues Projekt zu beginnen. Das Programm kann dann in einem neuen Fenster erstellt werden, das sich daraufhin öffnet. Für diese Lektion wird Python 3.9 verwendet.

Wie man in Python bestimmten Text aus PDF-Dateien extrahiert, Abbildung 3: Python-Projekt erstellen

Python-Projekt erstellen

IronPDF-Bibliotheksanforderung

Die Python-Bibliothek IronPDF verwendet weitgehend .NET 6.0. Daher muss die .NET 6.0-Laufzeitumgebung auf Ihrem Computer installiert sein, um IronPDF for Python verwenden zu können. Es kann notwendig sein, .NET zu installieren, bevor dieses Python-Modul von Linux- und Mac-Benutzern verwendet werden kann. Besuchen Sie diesedownload-Seite von Microsoft um die benötigte Laufzeitumgebung zu erhalten.

IronPDF-Bibliothek einrichten

Um Dateien mit der Erweiterung ".pdf" zu erzeugen, zu ändern und zu öffnen, muss das Paket "ironpdf" installiert sein. Öffnen Sie ein Terminalfenster und geben Sie den folgenden Befehl ein, um das Paket in PyCharm zu installieren:

:PackageInstall

Die Installation des Pakets ironpdf ist in der folgenden Abbildung dargestellt.

Wie man in Python bestimmten Text aus PDF-Dateien extrahiert, Abbildung 4: IronPDF installieren

IronPDF installieren

Extrahieren bestimmter Daten aus einer PDF-Datei

Mit Hilfe der IronPDF-Bibliotheken ist es möglich, Text aus PDF-Dateien zu extrahieren. IronPDF bietet eine Reihe von Textextraktionsmethoden. Bei der ersten Methode wird der gesamte Inhalt der Seite als eine einzige Zeichenkette abgerufen. Die zweite Strategie besteht darin, den Inhalt Seite für Seite durchzugehen, beginnend mit der ersten Seite. Vorhandene PDF-Dateien können mit der IronPDF-Bibliothek untersucht werden. Der folgende Codeschnipsel zeigt, wie IronPDF verwendet wird, um Live-PDF-Dateien zu prüfen.

Es gibt zwei Möglichkeiten, Informationen aus einer PDF-Datei zu extrahieren:

Seitenweise Extraktion aus der PDF-Datei
Konvertierung der gesamten PDF-Datei in Text
Die PDF-Beispieldatei für diesen Artikel ist unten verfügbar.
Eingabe PDF

Extraktion von Seite zu Seite aus dem PDF-Dokument

Der nachstehende Beispielcode zeigt, wie man Daten aus einer PDF-Datei anhand der Seitenzahl erhält.

from ironpdf import *

# PDF object
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from PDF document
all_text = pdf.ExtractTextFromPage(0)
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)

from ironpdf import *

# PDF object
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from PDF document
all_text = pdf.ExtractTextFromPage(0)
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)

PYTHON

Das Codeschnipsel zeigt, wie man eine PDF-Datei liest und ein PDF-Objekt mit der Funktion "FromFile" erstellt. Dieses Objekt kann für den Zugriff auf den Text und die Bilder der PDF-Datei verwendet werden. Durch Übergabe der Seitennummer als Parameter an die Funktion "ExtractTextFromPage" kann der Text von einer bestimmten Seite abgerufen werden. Diese Methode gibt eine Zeichenkette zurück, die alle Wörter der gewählten Seite enthält. Verwenden Sie dann die Funktion split in Python, um alle neuen Zeilen aus dem extrahierten Text zu trennen. Prüfen Sie anschließend, ob jede Zeile des extrahierten Textes die erforderlichen Schlüsselwörter enthält. Wenn das Schlüsselwort passt, wird die entsprechende Zeile in der Eingabeaufforderung angezeigt. Andernfalls wird diese Zeile ignoriert und mit der nächsten Zeile fortgefahren. Die Ausgabe für die Textextraktion wird wie unten gezeigt angezeigt.

Konvertierung der gesamten PDF-Datei in Text

Das folgende Codebeispiel demonstriert die erste Methode, um schnell und einfach den gesamten PDF-Inhalt als String zu erhalten.

pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extracting texts from PDF document
all_text = pdf.ExtractAllText()
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)

pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extracting texts from PDF document
all_text = pdf.ExtractAllText()
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)

PYTHON

Der obige Beispielcode zeigt, wie die Funktion "FromFile" verwendet wird, um eine PDF-Datei aus einem vorhandenen Dateipfad zu lesen und in ein PDF-Dateiobjekt zu konvertieren. Daher können wir dieses PDF-Reader-Objekt verwenden, um den Text und die Bilder in der PDF-Datei zu sehen. Die Funktion "ExtractAllText" des Objekts wird verwendet, um Daten aus dem PDF in Klartext zu extrahieren, sie in eine Zeichenkette umzuwandeln und die ähnliche Logik wie oben zu verwenden, um das spezifische Schlüsselwort zu finden und das Ergebnis im Terminal anzuzeigen. Die Ergebnisse werden wie folgt angezeigt.

Wie man in Python bestimmten Text aus PDF-Dateien extrahiert, Abbildung 6: Ausgabe

Output

Der obige Code/Ausgabe zeigt, dass das gegebene PDF-Dokument sowohl den Namen als auch das Alter enthält, aber das Ergebnis zeigt nur den im PDF-Dokument vorhandenen Namen.

Schlussfolgerung

Die IronPDF-Bibliothek bietet starke Sicherheitsmechanismen, um Bedrohungen zu reduzieren und die Datensicherheit zu gewährleisten. Er ist nicht auf einen bestimmten Browser beschränkt und ist mit allen gängigen Browsern kompatibel. Mit nur wenigen Zeilen Code können Programmierer mit IronPDF schnell PDF-Dateien erzeugen und lesen. Die IronPDF-Bibliothek bietet eine Reihe von Lizenzierungsoptionen, darunter eine kostenlose Entwicklerlizenz und zusätzliche Entwicklungslizenzen, die käuflich erworben werden können, um den unterschiedlichen Anforderungen von Entwicklern gerecht zu werden.

Eine unbefristete Lizenz, eine 30-Tage-Geld-zurück-Garantie, ein Jahr Software-Wartung und Upgrade-Optionen sind im Preis enthaltenLite-Paket. Diese Lizenzen können in allen Umgebungen verwendet werden. Darüber hinaus bietet IronPDF kostenlose Lizenzen mit einigen Einschränkungen für die Weiterverbreitung an. Atestlizenz ermöglicht es den Benutzern, das Produkt ohne Wasserzeichen zu bewerten.

Bitteansicht der verfügbaren IronPDF-Lizenzen für weitere Informationen zur kommerziellen Lizenzierung.

Jordi Bardia

Jetzt mit dem Ingenieurteam chatten

Software-Ingenieur

Jordi beherrscht vor allem Python, C# und C++. Wenn er seine Fähigkeiten bei Iron Software nicht einsetzt, programmiert er Spiele. Durch seine Mitverantwortung für Produkttests, Produktentwicklung und Forschung trägt Jordi wesentlich zur kontinuierlichen Produktverbesserung bei. Die vielseitigen Erfahrungen, die er sammelt, bieten ihm immer wieder neue Herausforderungen, und er sagt, dass dies einer seiner Lieblingsaspekte bei Iron Software ist. Jordi wuchs in Miami, Florida, auf und studierte Informatik und Statistik an der University of Florida.

< PREVIOUS
Wie man eine PDF-Datei in Python bearbeitet

NÄCHSTES >
Eine PDF-Datei in Python reduzieren