VERWENDUNG VON IRONPDF FOR PYTHON

Wie man in Python bestimmten Text aus einer PDF-Datei extrahiert

Veröffentlicht 2. August 2023
Teilen Sie:

1.0 Einführung

Wenn es um den Austausch von Dokumenten und die Verarbeitung von Daten geht, ist das von Adobe geschaffene Portable Document Format (PDF) datei ist von entscheidender Bedeutung für die Wahrung der Integrität von textreichen und ästhetisch ansprechenden Inhalten. Für den Zugriff auf Online-PDF-Dokumente ist in der Regel ein bestimmtes Programm mit den erforderlichen Modulen erforderlich. In der heutigen Zeit sind PDF-Dateien für viele wichtige digitale Veröffentlichungen erforderlich. Für die Erstellung von Geschäftspapieren und Rechnungen verwenden viele Unternehmen PDF-Dateien. Um bestimmte Kundenanforderungen zu erfüllen, wie z. B. die Extraktion von Daten, verwenden Entwickler häufig Bibliotheken zur Erstellung von PDF-Dokumenten.

Die Entwicklung moderner Bibliotheken hat die Erstellung von PDF-Dateien und die Extraktion von Text erleichtert. Um eine nahtlose Integration und eine optimale Leistung zu erreichen, ist es wichtig, bei der Auswahl der richtigen Bibliothek für ein Projekt, das die PDF-Erzeugung beinhaltet, die Fähigkeiten zum Erstellen, Lesen, Extrahieren von Daten aus PDF-Dateien und zur Konvertierung zu berücksichtigen. Mit Python können Sie ein vorhandenes PDF-Dokument analysieren und den Seitentext daraus extrahieren. Es gibt verschiedene Python-Bibliotheken, die verfügbar sind. IronPDF ist eine leistungsstarke Bibliothek, die unter anderem Text und Bilder aus PDF-Dateien extrahieren kann.

In diesem Artikel werden wir Textelemente aus PDF-Dokumenten mit Hilfe der IronPDF for Python-Bibliothek extrahieren.

2.0 IronPDF

Python ist eine Programmiersprache, die es Entwicklern ermöglicht, einfach und schnell grafische Benutzeroberflächen zu erstellen. Im Vergleich zu anderen Sprachen ist Python auch viel dynamischer für Programmierer. Aus diesem Grund ist das Hinzufügen der IronPDF-Bibliothek zu Python ein einfacher Prozess. Eine Vielzahl von vorinstallierten Tools, darunter PyQt, wxWidgets, Kivy und viele weitere Pakete und Python-Bibliotheken, können verwendet werden, um schnell und sicher eine vollständige GUI zu erstellen. IronPDF for Python ermöglicht die Integration von Funktionen aus anderen Frameworks, wie z. B. .NET Core.

IronPDF macht die Webentwicklung einfacher. Der Hauptgrund dafür ist die weite Verbreitung von Python-Webentwicklungsparadigmen wie Django, Flask und Pyramid. Reddit, Mozilla und Spotify sind nur einige der Websites und Online-Dienste, die diese Frameworks verwendet haben.

2.1 IronPDF Merkmale

  • Mit IronPDF können PDF-Dateien aus einer Vielzahl von Quellen erstellt werden, darunter HTML, HTML5, ASPX und Razor/MVC View. Es bietet die Möglichkeit, HTML-Seiten und Bilder in PDF-Dateien zu konvertieren.
  • Das Erstellen interaktiver PDFs, das Ausfüllen und Übermitteln interaktiver Formulare, das Zusammenführen und Teilen von PDF-Dateien, das Extrahieren von Text und Bildern, das Durchsuchen von Text in PDF-Dateien, das Rastern von PDFs in Bilder, das Ändern von Schriftgrößen, die Verarbeitung natürlicher Sprache mit ChatGPT und das Konvertieren von PDF-Seiten in Eigentum sind nur einige der Aktivitäten, bei denen das IronPDF-Toolkit helfen kann.
  • IronPDF bietet die Validierung von HTML-Anmeldeformularen mit Unterstützung für User-Agents, Proxies, Cookies, HTTP-Header und Formularvariablen.
  • IronPDF verwendet Benutzernamen und Kennwörter, um Benutzern den Zugang zu geschützten Dokumenten zu ermöglichen.
  • Mit nur wenigen Zeilen Code können wir eine PDF-Datei aus einer Vielzahl von Quellen drucken, darunter eine Zeichenkette, ein Stream oder eine URL.

3.0 Einrichtung Python

3.1 Umgebung Konfiguration

Stellen Sie sicher, dass Python auf Ihrem Computer installiert ist. Um die neueste Version von Python, die mit Ihrem Betriebssystem kompatibel ist, herunterzuladen und zu installieren, besuchen Sie die offizielle Python website. Erstellen Sie eine virtuelle Umgebung, sobald Python installiert ist, um die Anforderungen Ihres Projekts zu trennen. Erstellen und verwalten Sie virtuelle Umgebungen mit dem venv-Modul, um Ihrem Konvertierungsprojekt einen aufgeräumten, separaten Arbeitsplatz zu geben.

3.2 Neue Initiative in PyCharm

Für diese Demonstration werden wir PyCharm verwenden, eine IDE für die Entwicklung von Python-Code.

Nach dem Start der PyCharm IDE wählen Sie "Neues Projekt".

Wie man in Python bestimmten Text aus einer PDF-Datei extrahiert: Abbildung 1 - PyCharm

Wenn Sie "Neues Projekt" wählen, öffnet sich ein neues Fenster, in dem Sie den Ort und die Umgebung des Projekts festlegen können. Dies ist in der nachstehenden Abbildung zu sehen.

Wie man in Python bestimmten Text aus einer PDF-Datei extrahiert: Abbildung 2 - Neues Projekt

Nachdem Sie den Projektstandort und den Umgebungspfad ausgewählt haben, klicken Sie auf die Schaltfläche "Erstellen", um ein neues Projekt zu beginnen. Das Programm kann dann in einem neuen Fenster erstellt werden, das sich daraufhin öffnet. Für diese Lektion wird Python 3.9 verwendet.

Wie man in Python bestimmten Text aus einer PDF-Datei extrahiert: Abbildung 3 - Python-Projekt erstellen

3.3 IronPDF-Bibliotheksanforderung

Die Python-Bibliothek IronPDF nutzt weitgehend .NET 6.0. Daher muss die .NET 6.0-Laufzeitumgebung auf Ihrem Computer installiert sein, um IronPDF for Python nutzen zu können. Es kann notwendig sein, .NET zu installieren, bevor dieses Python-Modul von Linux- und Mac-Benutzern verwendet werden kann. Besuchen Sie diese seite um die benötigte Laufzeitumgebung zu erhalten.

3.4 Einrichtung der IronPDF-Bibliothek

Um Dateien mit der Erweiterung ".pdf" zu erzeugen, zu ändern und zu öffnen, muss das Paket "ironpdf" installiert sein. Öffnen Sie ein Terminalfenster und geben Sie den folgenden Befehl ein, um das Paket in PyCharm zu installieren:

:PackageInstall

Die Installation des Pakets ironpdf ist in der folgenden Abbildung dargestellt.

Wie man in Python bestimmten Text aus einer PDF-Datei extrahiert: Abbildung 4 - IronPDF installieren

4.0 Extrahieren bestimmter Daten aus einer PDF-Datei

Mit Hilfe der IronPDF-Bibliotheken können wir auch Text aus PDF-Dateien extrahieren. IronPDF bietet eine Reihe von Textextraktionsmethoden. Bei der ersten Methode wird der gesamte Inhalt der Seite als eine einzige Zeichenkette abgerufen. Die zweite Strategie besteht darin, den Inhalt Seite für Seite durchzugehen, beginnend mit der ersten Seite. Vorhandene PDF-Dateien können mit der IronPDF-Bibliothek untersucht werden. Der folgende Codeschnipsel zeigt, wie IronPDF verwendet wird, um Live-PDF-Dateien zu prüfen.

Es gibt zwei Möglichkeiten, Informationen aus einer PDF-Datei zu extrahieren:

  1. Seitenweise Extraktion aus der PDF-Datei

  2. Konvertierung der gesamten PDF-Datei in Text

    Die PDF-Datei, die wir für diesen Artikel verwenden werden, finden Sie unten.

    Wie man in Python bestimmten Text aus einer PDF-Datei extrahiert: Abbildung 5 - Eingabe-PDF

4.1 Seite pro Seite Extraktion aus der PDF-Datei

Der nachstehende Beispielcode zeigt, wie man Daten aus einer PDF-Datei anhand der Seitenzahl erhält.

from ironpdf import *
# # PDF object
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# # Extract text from PDF document
all_text = pdf.ExtractTextFromPage(0)
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)
PYTHON

Das Codeschnipsel zeigt, wie man eine PDF-Datei liest und ein PDF-Objekt mit der Funktion "FromFile" erstellt. Über dieses Objekt können wir auf den Text und die Fotos der PDF-Datei zugreifen. Durch Übergabe der Seitennummer als Parameter an die Funktion "ExtractTextFromPage" kann der Text einer bestimmten Seite abgerufen werden. Diese Methode gibt eine Zeichenkette zurück, die alle Wörter der gewählten Seite enthält. Dann verwenden wir die Funktion split in Python, um alle neuen Zeilen aus dem extrahierten Text zu trennen. Anschließend wird geprüft, ob jede Zeile des extrahierten Textes die gesuchten Schlüsselwörter enthält. Wenn das Schlüsselwort passt, wird die entsprechende Zeile in der Eingabeaufforderung angezeigt. Andernfalls wird diese Zeile ignoriert und mit der nächsten Zeile fortgefahren. Die Ausgabe für die Textextraktion wird wie unten gezeigt angezeigt.

4.2 Konvertierung der gesamten PDF-Datei in Text

Das folgende Codebeispiel demonstriert die erste Methode, um schnell und einfach den gesamten PDF-Inhalt als String zu erhalten.

pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# # Extracting texts from PDF document
all_text = pdf.ExtractAllText()
for _data in all_text.split('\n'):
    if('Name' in _data):
        print(_data)
PYTHON

Der obige Beispielcode zeigt, wie die Funktion "FromFile" verwendet wird, um eine PDF-Datei aus einem vorhandenen Dateipfad zu lesen und in ein PDF-Dateiobjekt zu konvertieren. Daher können wir dieses PDF-Reader-Objekt verwenden, um den Text und die Bilder in der PDF-Datei zu sehen. Die Funktion "ExtractAllText" des Objekts wird verwendet, um Daten aus dem PDF-Dokument in einen reinen Text zu extrahieren, diesen in eine Zeichenkette umzuwandeln und die ähnliche Logik wie oben zu verwenden, um das spezifische Schlüsselwort zu finden und das Ergebnis im Terminal anzuzeigen. Die Ergebnisse werden wie folgt angezeigt.

Wie man in Python bestimmten Text aus einer PDF-Datei extrahiert: Abbildung 6 - Ausgabe

Der obige Code/Ausgabe zeigt, dass das gegebene PDF-Dokument sowohl den Namen als auch das Alter enthält, aber das Ergebnis zeigt nur den im PDF-Dokument vorhandenen Namen.

5.0 Schlussfolgerung

Die IronPDF-Bibliothek bietet starke Sicherheitsmechanismen, um Bedrohungen zu reduzieren und die Datensicherheit zu gewährleisten. Er ist nicht auf einen bestimmten Browser beschränkt und ist mit allen gängigen Browsern kompatibel. Mit nur wenigen Zeilen Code können Programmierer mit IronPDF schnell PDF-Dateien erzeugen und lesen. Die IronPDF-Bibliothek bietet eine Reihe von Lizenzierungsoptionen, darunter eine kostenlose Entwicklerlizenz und zusätzliche Entwicklungslizenzen, die käuflich erworben werden können, um den unterschiedlichen Anforderungen von Entwicklern gerecht zu werden.

Eine unbefristete Lizenz, eine 30-Tage-Geld-zurück-Garantie, ein Jahr Software-Wartung und Upgrade-Optionen sind im Preis enthalten Lite-Paket. Diese Lizenzen können in allen Umgebungen verwendet werden. Darüber hinaus bietet IronPDF kostenlose Lizenzen mit einigen Einschränkungen für die Weiterverbreitung an. A testlizenz ermöglicht es den Nutzern, das Produkt ohne Wasserzeichen zu bewerten.

Bitte ansicht der verfügbaren IronPDF-Lizenzen für weitere Informationen zur kommerziellen Lizenzierung.

< PREVIOUS
Wie man eine PDF-Datei in Python bearbeitet
NÄCHSTES >
Eine PDF-Datei in Python reduzieren

Sind Sie bereit, loszulegen? Version: 2024.9 gerade veröffentlicht

pip install gratuit Lizenzen anzeigen >