VERWENDUNG VON IRONPDF FOR PYTHON

Extrahieren von Text aus gescannten PDF-Dateien in Python

Regan Pun

29. November 2023

Aktualisiert 7. Oktober 2024

Teilen Sie:

Das Extrahieren von Text aus PDF-Dateien, insbesondere aus gescannten Dateien, kann eine Herausforderung sein. Mit den richtigen Tools und Techniken kann dieser Prozess jedoch vereinfacht werden. In diesem Tutorial erfahren Sie, wie Sie IronPDF, eine Python-Bibliothek, verwenden, um Text aus einer gescannten PDF-Datei zu extrahieren. Dieser Artikel behandelt die Einrichtung Ihrer Umgebung und die Anwendung der optischen Zeichenerkennung.(OCR)und eine effektive Textextraktion durchführen.

1. Einführung in IronPDF

Wie man Text aus gescanntem PDF in Python extrahiert, Abbildung 1: Die Python PDF-Bibliothek

Die Python-PDF-Bibliothek

IronPDF ist eine vielseitige und leistungsfähige Bibliothek für die Bearbeitung und Verarbeitung von PDF-Dateien in der Python-Umgebung. IronPDF ist bekannt für seine Fähigkeit, sich nahtlos in Python-Anwendungen zu integrieren, und bietet eine Reihe von Funktionen, die über das grundlegende Lesen und Schreiben von PDFs hinausgehen. Es zeichnet sich durch seine Fähigkeit aus, zuhTML in PDF konvertieren, PDF-Dokumente aus Webseiten oder rohen HTML-Codes rendern, und bestehende PDF-Dateien bearbeiten.

Außerdem ist die optische Zeichenerkennung(OCR) funktion ist praktisch fürextraktion von Text aus gescannten PDF-Dokumenten. Es ist ein ideales Werkzeug für Entwickler, die sich mit verschiedenen Aufgaben im Zusammenhang mit PDF befassen. Egal, ob es um das Erstellen, Ändern oderExtrahieren von Daten aus PDF-Dateien, IronPDF ist eine robuste und zuverlässige Lösung, die den vielfältigen Anforderungen von Python-Entwicklern in verschiedenen Anwendungen gerecht wird.

2. Voraussetzungen

Bevor man sich mit der Textextraktion aus PDFs befasst, müssen einige Voraussetzungen und Bibliotheken vorhanden sein. Dadurch wird ein reibungsloser und effektiver Arbeitsablauf gewährleistet, während Sie fortfahren.

Python-Umgebung: Vergewissern Sie sich, dass Sie Python auf Ihrem Computer installiert haben. Python ist eine vielseitige Programmiersprache, die sich dank ihrer umfangreichen Bibliotheksunterstützung ideal für Aufgaben wie die Textextraktion eignet. Wenn Sie Python nicht installiert haben, können Sie es von der Websiteoffizielle Python-Website. Stellen Sie sicher, dass Sie eine Python-Version herunterladen, die mit Ihrem Betriebssystem kompatibel ist.
Installation des .NET 6.0 SDK: Da IronPDF für Python die IronPDF .NET-Bibliothek verwendet, die auf .NET 6.0 basiert, ist es entscheidend, dass das .NET 6.0 SDK auf Ihrem System installiert ist. Dieses SDK stellt die Laufzeit und die Bibliotheken bereit, die für die korrekte Funktion der IronPDF-Bibliothek erforderlich sind. Sie können das .NET 6.0 SDK von der offiziellen Microsoft .NET Website herunterladen und installieren.
IronPDF for Python Bibliothek:IronPDF ist eine robuste Bibliothek für die Arbeit mit PDF-Dokumenten in Python. Es erleichtert nicht nur die Textextraktion, sondern bietet auch Funktionen wie die Erstellung, Bearbeitung und Konvertierung von PDF-Dateien.
Gescanntes PDF-Dokument: Halten Sie ein gescanntes PDF-Dokument für die Textextraktion bereit. Dieses Dokument sollte idealerweise klar und gut lesbar sein, da die Qualität der gescannten PDF-Datei die Genauigkeit der OCR und des extrahierten Textes erheblich beeinflussen kann.
Grundkenntnisse in Python: Grundlegende Kenntnisse der Python-Programmierung sind von Vorteil. Die Vertrautheit mit Konzepten wie Variablen, Schleifen und grundlegenden Dateioperationen wird Ihnen helfen, durch den Code zu navigieren und den Textextraktionsprozess besser zu verstehen.
Eine geeignete Entwicklungsumgebung: Es ist zwar nicht unbedingt notwendig, aber eine Entwicklungsumgebung wieVisual Studio-Code, PyCharmoder sogar eineJupyter-Notebook kann Ihre Codierungserfahrung überschaubarer machen. Diese Umgebungen bieten Funktionen wie Syntaxhervorhebung, Codevervollständigung und Debugging-Tools, die bei der Arbeit mit Python-Skripten äußerst hilfreich sind.
Mit diesen Voraussetzungen sind Sie gut vorbereitet, um mit der IronPDF for Python-Bibliothek Text aus gescannten PDF-Dokumenten zu extrahieren. Die folgenden Schritte führen Sie durch die Installation von IronPDF, das Laden Ihres PDF-Dokuments, die Anwendung von OCR, die Extraktion von Text und die Verwendung der extrahierten Daten für Ihre speziellen Anforderungen.

3. Schritt-für-Schritt-Anleitung zum Extrahieren von Text aus gescannten PDFs

Schritt 1: IronPDF installieren

Erstens: Sie müssenironPDF installieren Python-Bibliothek in Ihrer Python-Umgebung. Dies geschieht in der Regel mit dem Paketmanager von Python, pip. Öffnen Sie Ihre Befehlszeilenschnittstelle und führen Sie den folgenden Befehl aus:

pip install ironpdf

Wie man Text aus einem gescannten PDF in Python extrahiert, Abbildung 2: Installieren Sie das IronPDF-Paket

Installieren Sie das IronPDF-Paket

Schritt 2: IronPDF importieren

Nach der Installation importieren Sie die IronPDF-Bibliothek in Ihr Python-Skript. Dieser Schritt ist entscheidend für den Zugriff auf die von IronPDF bereitgestellten Funktionalitäten:

import ironpdf

import ironpdf

PYTHON

Durch den Import von IronPDF können Sie nun dessen Klassen und Methoden in Ihrem Skript verwenden.

Schritt 3: Wenden Sie Ihren Lizenzschlüssel an

IronPDF benötigt einen Lizenzschlüssel für die volle Funktionalität. Wenn Sie eine Lizenz erworben haben, wenden Sie Ihren Lizenzschlüssel wie folgt an:

ironpdf.License.LicenseKey = "YOUR-LICENSE-KEY-HERE"

ironpdf.License.LicenseKey = "YOUR-LICENSE-KEY-HERE"

PYTHON

Ersetzen Sie "IHR-LIZENZSCHLÜSSEL-HIER" durch Ihren tatsächlichen IronPDF-Lizenzschlüssel. Dieser Schritt ist wichtig, um alle Funktionen von IronPDF ohne Einschränkungen freizuschalten.

Schritt 4: Laden Sie die gescannte PDF-Datei

Um Text zu extrahieren, laden Sie zunächst das PDF-Dokument in Ihr Skript:

pdf = ironpdf.PdfDocument.FromFile("scannedpdf.pdf")

pdf = ironpdf.PdfDocument.FromFile("scannedpdf.pdf")

PYTHON

Hier sollte "scannedpdf.pdf" durch den tatsächlichen Dateipfad des PDF-Dokuments ersetzt werden, das Sie verarbeiten möchten. Dieser Befehl liest die PDF-Datei und bereitet sie für die Textextraktion vor.

Schritt 5: Text aus PDF-Datei extrahieren

Mit dem geladenen PDF können Sie nun Text mit IronPDFs ExtractAllText extrahieren.()Methode, wie im folgenden Code gezeigt:

text = pdf.ExtractAllText()

text = pdf.ExtractAllText()

PYTHON

Diese Codezeile verarbeitet das gesamte PDF-Dokument, extrahiert den Textinhalt und speichert ihn in der Variablen text.

Schritt 6: Verarbeiten und Nutzen des extrahierten Textes

Nach der Extraktion sind die Textdaten in der Textvariablen verfügbar. Sie können diesen Text auf der Konsole ausgeben oder ihn je nach Bedarf weiterverarbeiten:

print(text)
# Additional code here to process or utilize the extracted text

print(text)
# Additional code here to process or utilize the extracted text

PYTHON

Dieser Schritt kann verschiedene Operationen beinhalten, wie das Speichern des extrahierten Textes in einer Datei, die Durchführung einer Textdatenanalyse oder die Integration in eine Datenbank oder eine Webanwendung. Hier können Sie die Ausgabe des obigen Codes sehen.

AUSGABETEXT

Extrahieren von Text aus gescannten PDF-Dateien in Python, Abbildung 3: Konsolenausgabe des oben beschriebenen Prozesses zur Textextraktion aus der PDF-Datei

Konsolenausgabe des oben beschriebenen Prozesses zum Extrahieren von Text aus der PDF-Datei

Schritt 7: Zusätzliche Operationen (Optional)

Die Möglichkeiten von IronPDF gehen über die Textextraktion hinaus. Je nach den Anforderungen Ihres Projekts können Sie zusätzliche Funktionen wie die Bearbeitung von PDFs, die Konvertierung von PDFs in verschiedene Formate oder sogar die Erstellung von PDFs aus HTML nutzen.

4. Fortgeschrittene Techniken

4.1 Umgang mit Nicht-Text-Elementen

Gescannte PDF-Dateien enthalten oft Nicht-Text-Elemente wie Bilder oder Grafiken. Während OCR sich auf Text konzentriert, möchten Sie diese Elemente vielleicht anders behandeln. Sie benötigen möglicherweise zusätzliche Python-Bibliotheken, um Nicht-Text-Inhalte zu verarbeiten oder zu ignorieren.

4.2 Verbesserung der OCR-Genauigkeit

Die Genauigkeit der Textextraktion kann je nach Qualität der gescannten Dokumente variieren. Um die OCR-Ergebnisse zu verbessern, sollten Sie sicherstellen, dass Ihre gescannte PDF-Datei von hoher Qualität und der Text so klar wie möglich ist.

4.3 Umwandlung in andere Formate

Nach dem Extrahieren von Text aus PDF-Dateien können Sie ihn zur weiteren Verarbeitung in andere Formate wie CSV, JSON oder XML konvertieren. IronPDF ermöglicht solche Konvertierungen und bietet Ihnen flexible Möglichkeiten der Datenverarbeitung.

5. Behebung häufiger Probleme

Bei der Arbeit mit OCR und Textextraktion kann es zu Problemen wie diesen kommen:

Schlechte OCR-Genauigkeit aufgrund von Scans schlechter Qualität.
Fehlender Text, wenn die OCR einige Zeichen nicht erkennt.
Fehler beim Laden großer PDF-Dateien.
Um diese Probleme zu beheben, sollten Sie sicherstellen, dass Ihre gescannten PDF-Dateien klar und von hoher Qualität sind, große Dateien in kleinere unterteilen und überprüfen, ob IhreIronPDF bibliothek auf dem neuesten Stand ist.

Schlussfolgerung

Das Extrahieren von Text aus einer gescannten PDF-Datei lässt sich nahtlos mit der FunktionIronPDF Python-Bibliothek. Anhand der in dieser Anleitung beschriebenen Schritte können Sie ein nicht durchsuchbares gescanntes Dokument in ein textreiches Format umwandeln, das schnell verarbeitet und analysiert werden kann. Denken Sie daran, jede PDF-Seite sorgfältig zu behandeln und OCR anzuwenden, um Ihre gescannte PDF-Datei in eine durchsuchbare PDF-Datei zu verwandeln. Mit dem extrahierten Text sind die Möglichkeiten zur Datenmanipulation und -nutzung enorm und ebnen den Weg für innovative Lösungen und rationalisierte Arbeitsabläufe.

Zusammenfassend behandelte dieser Artikel die Installation und Einrichtung von IronPDF, das Laden von PDF-Dateien, die Anwendung von OCR-Technologie, um ein gescanntes PDF durchsuchbar zu machen, den eigentlichen Textextraktionsprozess und die Verarbeitung mehrerer PDF-Seiten. Es behandelte auch fortgeschrittene Techniken und das Beheben gängiger Probleme. Mit diesem Wissen können Sie mit Python Textdaten aus PDF-Dokumenten extrahieren.

IronPDF bietet einekostenloser Test für den Zugriff auf den vollen Funktionsumfang, so dass die Benutzer die Möglichkeiten der PDF-Bearbeitung und Textextraktion beurteilen können. Nach der Testphase kann eine kostenpflichtige Lizenz ab $749 erworben werden, die sich an professionelle und kommerzielle Nutzer richtet und einen umfangreichen Funktionsumfang bietet. IronPDF ist für die Entwicklung kostenlos und ermöglicht es Entwicklern, die Funktionen während der Anwendungsentwicklungsphase ohne Kosten zu integrieren und zu testen.

Regan Pun

Jetzt mit dem Ingenieurteam chatten

Software-Ingenieur

Regan schloss sein Studium an der University of Reading mit einem BA in Elektrotechnik ab. Bevor er zu Iron Software kam, konzentrierte er sich in seinen früheren Jobs auf einzelne Aufgaben. Was ihm bei Iron Software am meisten Spaß macht, ist das Spektrum der Aufgaben, die er übernehmen kann, sei es im Vertrieb, im technischen Support, in der Produktentwicklung oder im Marketing. Es macht ihm Spaß, die Art und Weise zu verstehen, wie Entwickler die Bibliothek von Iron Software nutzen, und dieses Wissen zu nutzen, um die Dokumentation und die Produkte kontinuierlich zu verbessern.

< PREVIOUS
Python PdfWriter (Code-Beispiel-Tutorial)

NÄCHSTES >
Wie man eine PDF-Datei in Python öffnet