VERWENDUNG VON IRONPDF FOR PYTHON

Konvertieren von PDF in Text in Python (Tutorial)

Kannapat Udonpant

30. Juni 2023

Aktualisiert 21. September 2024

Teilen Sie:

In diesem Artikel wird gezeigt, wie IronPDF for Python, eine der leistungsfähigsten PDF-Bibliotheken, verwendet wird, um jeden in einem PDF-Dokument vorhandenen Text zu extrahieren.

Konvertieren von PDF in Text in Python

Installieren Sie eine Python-Bibliothek, um PDF in Text zu konvertieren
Laden Sie ein vorhandenes PDF-Dokument oder erstellen Sie ein neues Dokument
Verwenden Sie die ExtractAllText-Methode, um Text aus der geöffneten Datei zu lesen
Verwenden Sie eine andere Überladung der Methode, um Text von bestimmten Seiten zu lesen.
Drucken Sie den extrahierten Text in die Konsole oder speichern Sie ihn in einer Textdatei

2.0 Wie kann man mit Python Text aus einer PDF-Datei extrahieren?

Installieren Sie die neueste Version von Python von der Python-Downloadseite
Öffnen Sie alle IDE-Tools für Python
.NET Core-Laufzeitumgebung installieren
Installieren Sie die IronPDF für Python Bibliothek oder laden Sie sie von der PyPI-Download-Seite herunter
Text aus der PDF-Datei extrahieren

2.1 Was ist IronPDF for Python?

Die IronPDF-Bibliothek lässt sich problemlos in Python integrieren, da diese Sprache im Vergleich zu anderen Sprachen sehr viel dynamischer ist und es Entwicklern ermöglicht, schnell und einfach grafische Benutzeroberflächen zu erstellen. Es verfügt über eine Fülle von vorinstallierten Werkzeugen, darunter PyQT, wxWidgets, kivy und zahlreiche zusätzliche Pakete und Bibliotheken, mit denen sich schnell und sicher eine vollständige grafische Benutzeroberfläche erstellen lässt.

IronPDF for Python ist eine äußerst effiziente Bibliothek, die besonders für die Webentwicklung nützlich ist. Die Verfügbarkeit so vieler Python-Paradigmen für die Webentwicklung, wie Django, Flask und Pyramid, ist teilweise dafür verantwortlich. Diese Frameworks wurden bereits von zahlreichen Websites und Online-Diensten verwendet, darunter Reddit, Mozilla und Spotify.

2.2 Merkmale von IronPDF

Eine PDF-Datei kann aus einer Vielzahl von Quellen erstellt werden, einschließlich HTML, HTML5, ASP und PHP-Websites. Neben HTML-Dateien ist es auch möglich, Bilddateien in PDF zu konvertieren.
IronPDF ermöglicht es Ihnen, interaktive PDF-Dokumente zu erstellen, interaktive Formulare auszufüllen und zu senden, PDF-Dateien zu teilen und zu kombinieren, Text und Bilder aus PDF-Dateien zu extrahieren, nach bestimmten Wörtern innerhalb einer PDF-Datei zu suchen, PDF-Seiten in Bilder zu rasterisieren, PDF in HTML zu konvertieren und PDF-Dateien zu drucken.
IronPDF kann PDF-Dateien öffnen und von einer URL aus drucken. Darüber hinaus ermöglicht es Benutzeragenten, sich hinter HTML-Anmeldeformularen, Proxys, Cookies, HTTP-Headern, benutzerdefinierten Netzwerk-Anmeldedaten, Formularvariablen und Benutzeragenten anzumelden.
Bilder können mit IronPDF aus Dokumenten extrahiert werden.
Mit IronPDF ist es sehr einfach, Kopf- und Fußzeilen hinzuzufügen, Text und Bilder, Lesezeichen und Wasserzeichen und mehr in Dokumente einzufügen.
Es ist möglich, Seiten zu kombinieren und zu trennen, indem ein neues oder bestehendes Dokument mit IronPDF verwendet wird.
Ohne einen Acrobat-Viewer zu verwenden, können Dokumente in PDF-Objekte umgewandelt werden.
Eine CSS-Datei kann zur Erstellung eines PDF-Dokuments verwendet werden.
Die Erstellung von Dokumenten ist mit CSS-Dateien vom Typ media möglich.

2.3 IronPDF-Bibliothek importieren

Fügen Sie die folgenden Import-Anweisungen am Anfang der Quelldateien ein, in denen IronPDF verwendet werden soll, um IronPDF zu importieren:

from ironpdf import *

from ironpdf import *

PYTHON

2.4 Lizenzschlüssel festlegen (falls erforderlich)

IronPDF for Python ist zwar kostenlos, versieht aber PDF-Dateien mit einem Wasserzeichen, das mit einem gekachelten Hintergrund versehen ist. Sie müssen der Bibliothek einen legitimen Lizenzschlüssel geben, um IronPDF für die Erstellung wasserzeichenfreier PDFs zu verwenden. Wie man die Bibliothek mit einem Lizenzschlüssel einrichtet, zeigt der folgende Codeschnipsel:

License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"

License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"

PYTHON

Vergewissern Sie sich, dass der Lizenzschlüssel konfiguriert ist, bevor Sie PDF-Dateien erstellen oder Änderungen an deren Inhalt vornehmen. Die LicenseKey-Methode sollte vor allen anderen Codezeilen aufgerufen werden. Um einen kostenlosen Testlizenzschlüssel zu erhalten, besuchen Sie die Lizenzierungsseite.

2.5 Log-Dateien einstellen

Eine Textdatei namens "Default" kann die von Custom.log erzeugten Protokollmeldungen im Verzeichnis des Python-Skripts speichern. Der folgende Codeausschnitt kann verwendet werden, um die Eigenschaft LogFilePath festzulegen und den Namen und den Speicherort der Protokolldatei anzupassen:

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All

PYTHON

3.0 PDF-Text mit IronPDF extrahieren

Die IronPDF for Python-Bibliothek kann PDF-Seiten in PDF-Objekte umwandeln und ermöglicht die Textextraktion aus PDF-Dateien, auch aus gescannten PDF-Dateien. Hier ein Beispiel, das zeigt, wie man mit IronPDF ein vorhandenes PDF liest.

Bei der ersten Methode wird der gesamte in einer PDF-Datei vorhandene Text extrahiert; nachstehend finden Sie ein Beispiel für den Code.

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)

PYTHON

Wie im obigen Code veranschaulicht, ist die FromFile-Methode ein PDF-Reader-Objekt, das die vorhandene PDF-Datei lädt und in PDF-Dokumentobjekte umwandelt. Dieses Objekt kann verwendet werden, um den Text und die Bilder zu lesen, die auf den PDF-Seiten verfügbar sind. Das Objekt bietet eine Methode namens ExtractAllText, die jedes Stück Text aus der gesamten PDF-Datei extrahiert und den Text in einem String speichert, der verarbeitet werden kann. Und dann verwenden Sie die print-Funktion, um den Text anzuzeigen.

Wie man PDF in Text in Python konvertiert (Tutorial), Abbildung 1: Anzeige des Textes

Text anzeigen

Das Code-Beispiel für die zweite Methode, die zum seitenweisen Extrahieren von Text aus einer PDF-Datei verwendet werden kann. Es ist unten angegeben.

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)

PYTHON

Die FromFile-Methode wird verwendet, um die PDF-Datei aus einer vorhandenen Datei zu laden und sie in ein PDF-Dateiobjekt zu konvertieren, wie im obigen Code gezeigt. Eine Methode des PDF-Seitenobjekts namens ExtractTextFromPage extrahiert den gesamten Text von einer Seite in einer PDF-Datei. Die Seitennummer muss als Parameter angegeben werden, um den Text von dieser bestimmten Seite zu extrahieren. Dann kann nach dem Extrahieren des Textes page_text verwendet werden, um die Informationen zu halten, die verarbeitet werden können.

Schauen Sie sich weitere Beispiele an, um Text aus einer PDF-Datei zu extrahieren.

4.0 Schlussfolgerung

Die IronPDF-Bibliothek hingegen bietet starke Sicherheitsmaßnahmen, um potenzielle Risiken zu verringern. Sie ist nicht auf einen bestimmten Browser zugeschnitten und funktioniert mit allen gängigen Browsern. IronPDF ermöglicht es Programmierern, mit nur wenigen Zeilen Code PDF-Dateien zu erstellen und zu lesen. Die IronPDF-Bibliothek bietet eine Reihe von Lizenzierungsoptionen, darunter eine kostenlose Entwicklerlizenz und zusätzliche Entwicklungslizenzen, die käuflich erworben werden können, um den Anforderungen verschiedener Entwickler gerecht zu werden.

IronPDF beinhaltet eine unbefristete Lizenz, eine 30-Tage-Geld-zurück-Garantie, ein Jahr Software-Support und Upgrade-Optionen. Nach dem Erstkauf fallen keine weiteren Kosten an. Diese Lizenzen können in Entwicklungs-, Staging- und Produktionsumgebungen verwendet werden. Erfahren Sie mehr über die Produktlizenzierung.

Downloaden Sie das Softwareprodukt.

Kannapat Udonpant

Jetzt mit dem Ingenieurteam chatten

Software-Ingenieur

Bevor er Software-Ingenieur wurde, promovierte Kannapat an der Universität Hokkaido in Japan im Bereich Umweltressourcen. Während seines Studiums wurde Kannapat auch Mitglied des Vehicle Robotics Laboratory, das Teil der Abteilung für Bioproduktionstechnik ist. Im Jahr 2022 wechselte er mit seinen C#-Kenntnissen zum Engineering-Team von Iron Software, wo er sich auf IronPDF konzentriert. Kannapat schätzt an seiner Arbeit, dass er direkt von dem Entwickler lernt, der den Großteil des in IronPDF verwendeten Codes schreibt. Neben dem kollegialen Lernen genießt Kannapat auch den sozialen Aspekt der Arbeit bei Iron Software. Wenn er nicht gerade Code oder Dokumentationen schreibt, kann man Kannapat normalerweise beim Spielen auf seiner PS5 oder beim Wiedersehen mit The Last of Us antreffen.

< PREVIOUS
Wie man PDF-Dateien in Python anzeigt