Zum Fußzeileninhalt springen
VERWENDUNG VON IRONPDF FüR PYTHON

Wie man mit Python bestimmten Text aus PDF extrahiert

Dieser Artikel wird demonstrieren, wie man Textelemente aus PDF-Dokumenten mit der Hilfe der IronPDF for Python-Bibliothek extrahiert.

IronPDF

Python ist eine Programmiersprache, die es Entwicklern einfach und schnell macht, grafische Benutzeroberflächen zu erstellen. Im Vergleich zu anderen Sprachen ist Python auch für Programmierer viel dynamischer. Aus diesem Grund ist das Hinzufügen der IronPDF-Bibliothek zu Python ein einfacher Prozess. Eine Vielzahl vorinstallierter Tools, darunter PyQt, wxWidgets, Kivy und viele weitere Pakete und Python-Bibliotheken, kann verwendet werden, um schnell und sicher eine vollständige GUI zu erstellen. IronPDF integriert Python und ermöglicht zudem die Integration von Funktionen anderer Frameworks wie .NET Core.

IronPDF macht die Webentwicklung einfacher. Der Hauptgrund dafür ist die weit verbreitete Übernahme von Python-Webentwicklungsparadigmen wie Django, Flask und Pyramid. Reddit, Mozilla und Spotify sind nur einige der Websites und Online-Dienste, die diese Frameworks verwendet haben.

IronPDF Funktionen

  • Mit IronPDF können PDF-Dateien aus verschiedenen Quellen erstellt werden, einschließlich HTML, HTML5, ASPX und Razor/MVC View. It offers the ability to convert HTML pages and images into PDF files.
  • Creating interactive PDFs, completing and submitting interactive forms, splitting and combining PDF files, extracting text and images, searching text within PDF files, rasterizing PDFs to images, changing font sizes, natural language processing using ChatGPT, and converting PDF pages property are just a few of the activities that the IronPDF toolkit can help with.
  • IronPDF bietet HTML-Login-Formularvalidierung mit Unterstützung für User-Agents, Proxys, Cookies, HTTP-Header und Formvariablen.
  • IronPDF verwendet Benutzernamen und Passwörter, um Benutzern Zugriff auf geschützte Dokumente zu gewähren.
  • Mit nur wenigen Codezeilen kann IronPDF eine PDF-Datei aus verschiedenen Quellen drucken, einschließlich eines Strings, Streams oder einer URL.

Python einrichten

Umgebungskonfiguration

Stellen Sie sicher, dass Python auf Ihrem Computer eingerichtet ist. Um die neueste Version von Python herunterzuladen und zu installieren, die mit Ihrem Betriebssystem kompatibel ist, besuchen Sie die offizielle Python-Website. Erstellen Sie nach der Installation von Python eine virtuelle Umgebung, um die Anforderungen Ihres Projekts zu trennen. Erstellen und verwalten Sie virtuelle Umgebungen mit dem Modul 'venv', um Ihrem Konvertierungsprojekt einen sauberen, separaten Arbeitsbereich zu bieten.

Neues Projekt in PyCharm

Für diese Demonstration wird PyCharm als IDE zur Entwicklung von Python-Code empfohlen.

Nach dem Start der PyCharm-IDE wählen Sie 'Neues Projekt'.

So extrahieren Sie spezifischen Text aus PDF in Python, Abbildung 1: PyCharm PyCharm

Ein neues Fenster öffnet sich, wenn Sie "Neues Projekt" auswählen, in dem Sie den Speicherort und die Umgebung des Projekts festlegen können. Dies könnte im Bild unten zu sehen sein.

So extrahieren Sie spezifischen Text aus PDF in Python, Abbildung 2: Neues Projekt Neues Projekt

Nachdem Sie den Projektstandort und den Umgebungsweg ausgewählt haben, klicken Sie auf die Schaltfläche Erstellen, um ein neues Projekt zu beginnen. Das Programm kann dann in einem neuen Fenster erstellt werden, das sich als Ergebnis öffnet. Für diese Lektion wird Python 3.9 verwendet.

So extrahieren Sie spezifischen Text aus PDF in Python, Abbildung 3: Python-Projekt erstellen Python-Projekt erstellen

IronPDF-Bibliotheksanforderung

Die Python-Bibliothek IronPDF verwendet größtenteils .NET 6.0. Daher muss die .NET 6.0-Laufzeit auf Ihrem Computer installiert sein, um IronPDF for Python zu verwenden. Es kann notwendig sein, .NET zu installieren, bevor dieses Python-Modul von Linux- und Mac-Benutzern verwendet werden kann. Besuchen Sie diese Download-Seite von Microsoft, um die benötigte Laufzeitumgebung zu erhalten.

IronPDF-Bibliothek einrichten

Um Dateien mit der Erweiterung ".pdf" zu erstellen, zu ändern und zu öffnen, muss das Paket "ironpdf" installiert werden. Öffnen Sie ein Terminalfenster und geben Sie den folgenden Befehl ein, um das Paket in PyCharm zu installieren:

pip install ironpdf
pip install ironpdf
SHELL

Die Installation des ironpdf-Pakets wird im folgenden Screenshot gezeigt.

So extrahieren Sie spezifischen Text aus PDF in Python, Abbildung 4: Installieren Sie IronPDF Installieren Sie IronPDF

Spezifische Daten aus PDF-Datei extrahieren

Es ist möglich, Text aus PDF-Dateien mit Hilfe der IronPDF-Bibliotheken zu extrahieren. IronPDF bietet eine Reihe von Textextraktionsmethoden. Die erste Methode beinhaltet das Abrufen des gesamten Seiteninhalts als einzelnen String. Die zweite Strategie beinhaltet das Durchgehen des Inhalts Seite für Seite, beginnend mit der ersten Seite. Bestehende PDF-Dateien können mit der IronPDF-Bibliothek untersucht werden. Das folgende Code-Snippet zeigt, wie man mit IronPDF Live-PDF-Dateien inspiziert.

Es gibt zwei Optionen zum Extrahieren von Informationen aus einem PDF:

  1. Extraktion Seite für Seite aus dem PDF
  2. Umwandeln des gesamten PDFs in Text

Hier ist die Beispieldatei für diesen Artikel, die unten verfügbar ist.

So extrahieren Sie spezifischen Text aus PDF in Python, Abbildung 5: Eingabe-PDF Eingabe-PDF

Seitenweise Extraktion aus dem PDF

Der nachfolgend bereitgestellte Beispielcode zeigt, wie man Daten aus einer PDF-Datei anhand der Seitennummer erhält.

from ironpdf import PdfDocument

# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from the first page of the PDF document
all_text = pdf.ExtractTextFromPage(0)
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
    # Check if the line contains the keyword "Name"
    if 'Name' in line:
        # Print the line if it contains the keyword
        print(line)
from ironpdf import PdfDocument

# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract text from the first page of the PDF document
all_text = pdf.ExtractTextFromPage(0)
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
    # Check if the line contains the keyword "Name"
    if 'Name' in line:
        # Print the line if it contains the keyword
        print(line)
PYTHON

Das Code-Snippet zeigt, wie man eine PDF-Datei liest und ein PDF-Objekt mit der FromFile-Funktion erstellt. Dieses Objekt kann verwendet werden, um auf den Text und die Bilder des PDFs zuzugreifen. Indem man die Seitennummer als Parameter an die ExtractTextFromPage-Funktion übergibt, kann der Text von einer bestimmten Seite abgerufen werden. Diese Methode gibt einen String zurück, der alle Wörter auf der gewählten Seite enthält. Verwenden Sie dann die split-Funktion in Python, um alle neuen Zeilen aus dem extrahierten Text zu trennen. Prüfen Sie anschließend, ob jede Zeile im extrahierten Text die erforderlichen Schlüsselwörter enthält. Wenn das Schlüsselwort übereinstimmt, wird die spezifische Zeile im Befehlszeilenfenster angezeigt. Andernfalls wird diese Zeile ignoriert und zur nächsten Zeile übergegangen. Die Ausgabe für die Textextraktion wird wie unten gezeigt angezeigt.

Umwandeln des gesamten PDFs in Text

Das folgende Code-Beispiel demonstriert die erste Methode, um schnell und einfach den gesamten PDF-Inhalt als String zu erhalten.

from ironpdf import PdfDocument

# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract all text from the PDF document
all_text = pdf.ExtractAllText()
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
    # Check if the line contains the keyword "Name"
    if 'Name' in line:
        # Print the line if it contains the keyword
        print(line)
from ironpdf import PdfDocument

# Load the PDF file
pdf = PdfDocument.FromFile('F:\\PDF\\Extract.pdf')
# Extract all text from the PDF document
all_text = pdf.ExtractAllText()
# Iterate over each line in the extracted text
for line in all_text.split('\n'):
    # Check if the line contains the keyword "Name"
    if 'Name' in line:
        # Print the line if it contains the keyword
        print(line)
PYTHON

Der obige Beispielcode zeigt, wie man die FromFile-Funktion verwendet, um eine PDF-Datei von einem bestehenden Dateipfad zu lesen und in ein PDF-Dateiobjekt umzuwandeln. Als Ergebnis können wir dieses PDF-Reader-Objekt verwenden, um den Text und die Bilder im PDF zu sehen. Die Funktion ExtractAllText des Objekts wird verwendet, um Daten aus dem PDF in Klartext zu extrahieren, sie in einen String umzuwandeln und die ähnliche Logik wie oben zu verwenden, um das spezifische Schlüsselwort zu finden, um das Ergebnis im Terminal anzuzeigen. Die Ergebnisse werden wie folgt angezeigt.

So extrahieren Sie spezifischen Text aus PDF in Python, Abbildung 6: Ausgabe Ausgabe

Der obige Code/Ausgang zeigt, dass das gegebene PDF-Dokument sowohl den Namen als auch das Alter enthält, allerdings zeigt das Ergebnis nur den im PDF-Dokument verfügbaren Namen.

Abschluss

Die IronPDF-Bibliothek bietet starke Sicherheitsmechanismen, um Bedrohungen zu reduzieren und die Datensicherheit zu gewährleisten. Es ist nicht auf einen bestimmten Browser beschränkt und mit allen gängigen Browsern kompatibel. Mit nur wenigen Zeilen Code können Programmierer mit IronPDF schnell PDF-Dateien erstellen und lesen. Die IronPDF-Bibliothek bietet eine Vielzahl von Lizenzoptionen, die eine kostenlose Entwicklerlizenz und zusätzliche Entwicklungslizenzen zum Kauf umfassen, um die unterschiedlichen Anforderungen der Entwickler zu erfüllen.

Eine unbefristete Lizenz, eine 30-tägige Geld-zurück-Garantie, ein Jahr Softwarewartung und Upgrade-Optionen sind im Lite-Paket enthalten. Diese Lizenzen können in allen Umgebungen verwendet werden. Zusätzlich bietet IronPDF kostenlose Lizenzen mit einigen Vertriebsbeschränkungen. Eine Testlizenz ermöglicht es Benutzern, das Produkt ohne Wasserzeichen zu bewerten.

Bitte schauen Sie sich die verfügbaren IronPDF-Lizenzen an, um weitere Informationen zur kommerziellen Lizenzierung zu erhalten.

Häufig gestellte Fragen

Wie kann ich spezifischen Text aus einem PDF mit Python extrahieren?

Sie können die Python-Bibliothek von IronPDF verwenden, um Text aus PDFs zu extrahieren. Sie bietet Funktionen, um Text seitenweise mit ExtractTextFromPage oder aus dem gesamten Dokument mit ExtractAllText zu extrahieren.

Was sind die Schritte zur Einrichtung von IronPDF in einem Python-Projekt?

Installieren Sie zuerst die .NET 6.0 Laufzeit, falls noch nicht installiert. Richten Sie dann Python in Ihrer Entwicklungsumgebung wie PyCharm ein. Installieren Sie IronPDF mit pip install ironpdf, um PDF-Funktionen in Ihr Projekt zu integrieren.

Ist IronPDF kompatibel mit Frameworks wie Django und Flask?

Ja, IronPDF integriert sich gut mit Python-Webentwicklungs-Frameworks wie Django und Flask und bietet vielseitige Optionen für die Verarbeitung von PDFs in Webanwendungen.

Welche Lizenzierungsoptionen gibt es für die Verwendung von IronPDF mit Python?

IronPDF bietet eine Reihe von Lizenzierungsoptionen, einschließlich einer kostenlosen Entwicklerlizenz für den persönlichen Gebrauch und verschiedenen kommerziellen Lizenzen, die zusätzliche Funktionen und Vorteile bieten.

Wie kann ich IronPDF für Python installieren?

Installieren Sie IronPDF mit dem Paketmanager pip, indem Sie den Befehl pip install ironpdf in Ihrem Terminal oder Kommandozeilenfenster ausführen.

Welche Entwicklungsumgebung wird für die Verwendung von IronPDF mit Python empfohlen?

PyCharm wird als empfohlene Integrierte Entwicklungsumgebung (IDE) für die Entwicklung von Python-Anwendungen mit IronPDF empfohlen, aufgrund seiner umfassenden Funktionen und Python-Unterstützung.

Was sind einige der Hauptfunktionen der IronPDF-Bibliothek für Python?

IronPDF for Python bietet Funktionen wie das Erstellen von PDFs aus HTML, das Konvertieren von Bildern in PDFs, Formularbearbeitung, Text- und Bildextraktion und PDF-Zusammenführung.

Wie sicher ist die IronPDF-Bibliothek bei der Verarbeitung von PDF-Dateien?

IronPDF ist mit robusten Sicherheitsfunktionen ausgestattet, um eine sichere Verarbeitung von PDF-Dateien zu gewährleisten. Es unterstützt Verschlüsselung und Passwortschutz, um sensible Informationen zu schützen.

Curtis Chau
Technischer Autor

Curtis Chau hat einen Bachelor-Abschluss in Informatik von der Carleton University und ist spezialisiert auf Frontend-Entwicklung mit Expertise in Node.js, TypeScript, JavaScript und React. Leidenschaftlich widmet er sich der Erstellung intuitiver und ästhetisch ansprechender Benutzerschnittstellen und arbeitet gerne mit modernen Frameworks sowie der Erstellung gut strukturierter, optisch ansprechender ...

Weiterlesen