Dieser Leitfaden zeigt die Feinheiten der Verwendung von IronPDF zur sequentiellen Extraktion von Text aus PDF-Dokumenten in Python. Es wird alles abdecken, von der Einrichtung Ihrer Python-Umgebung bis zur Ausführung Ihres ersten Python-Programms zur Textextraktion aus PDFs.
Laden Sie die PDF-Bibliothek herunter und installieren Sie sie, um mit Python Text aus der PDF-Datei zu extrahieren.
Erstellen Sie ein Python-Projekt in Ihrer bevorzugten IDE.
Laden Sie die gewünschte PDF-Datei zum Abrufen von Textinhalten.
Durchlaufen Sie die PDF-Datei in einer Schleife und extrahieren Sie den Text nacheinander mit der Funktion der integrierten Bibliothek.
- Speichern Sie den extrahierten Text in einer Datei.
IronPDF PDF for Python Bibliothek
IronPDF ist ein praktisches Werkzeug, mit dem Sie in Python mit PDF-Dateien arbeiten können. Betrachten Sie es als einen hilfreichen Assistenten, der Ihnen das Lesen, Erstellen und Bearbeiten von PDF-Dateien erleichtert. Ob Sie Inhalte aus einem PDF-Dokument extrahieren, neue Informationen einfügen oder eine Webseite in ein PDF-Format umwandeln möchten, IronPDF bietet umfassende Lösungen. Es handelt sich um ein kostenpflichtiges Softwarepaket, aber es wird eine Testversion angeboten, die Sie ausprobieren können, bevor Sie sich zum Kauf verpflichten.
Bevor Sie mit dem Skript beginnen, müssen Sie zunächst Ihre Python-Umgebung einrichten. Diese Schritt-für-Schritt-Anleitung hilft Ihnen, Ihre Umgebung zu konfigurieren, ein neues Python-Projekt in Visual Studio Code zu erstellen und die Umgebungskonfiguration der IronPDF-Bibliothek einzurichten.
Download und Installation von Python: Wenn Sie Python noch nicht installiert haben, laden Sie die neueste Version von der offiziellen Python-Website herunter. Befolgen Sie die Installationsanweisungen für Ihr spezifisches Betriebssystem.
Python-Installation überprüfen: Öffnen Sie Ihr Terminal oder die Eingabeaufforderung und geben Sie python --version ein. Dieser Befehl sollte die installierte Python-Version ausgeben und bestätigen, dass die Installation erfolgreich war.
Pip aktualisieren: Pip ist der Paketinstaller von Python. Stellen Sie sicher, dass es auf dem neuesten Stand ist, indem Sie pip install --upgrade pip ausführen.
Erstellen eines neuen Python-Projekts in Visual Studio Code
Visual Studio Code herunterladen: Wenn Sie es noch nicht haben, laden Sie es von der offiziellen Website herunter.
Python-Erweiterung installieren: Öffnen Sie Visual Studio Code und gehen Sie zum Erweiterungs-Marktplatz. Suchen Sie nach der Python-Erweiterung von Microsoft und installieren Sie sie.
Neuen Ordner erstellen: Erstellen Sie einen neuen Ordner, in dem Sie Ihr Python-Projekt unterbringen möchten. Bennennen Sie es etwas Relevantes, wie PDF_Text_Extractor.
Ordner in VS Code öffnen: Ziehen Sie den Ordner in Visual Studio Code oder nutzen Sie die Menüoption Datei > Ordner öffnen, um den Ordner zu öffnen.
Erstellen Sie eine Python-Datei: Klicken Sie mit der rechten Maustaste im VS Code Explorer-Panel und wählen Sie Neue Datei. Benennen Sie die Datei main.py oder etwas Ähnliches. In dieser Datei wird Ihr Python-Programm gespeichert.

Neue Python-Datei in Visual Studio Code erstellen
IronPDF-Bibliotheksanforderung und Einrichtung
IronPDF ist für das Abrufen von Textinhalten aus PDFs unerlässlich. So wird sie installiert:
Terminal in VS Code öffnen: Sie können ein Terminal in VS Code öffnen, indem Sie zu Terminal > Neues Terminal gehen.
Installieren Sie IronPDF: Führen Sie im Terminal folgendes aus, um die neueste Version von IronPDF zu installieren:
Bei diesem Vorgang wird die IronPDF-Bibliothek zusammen mit allen erforderlichen Modulen abgerufen und installiert.

IronPDF-Paket installieren
Und da haben Sie es! Sie haben nun erfolgreich Ihre Python-Umgebung eingerichtet, ein neues Projekt in Visual Studio Code erstellt und die IronPDF-Bibliothek installiert.
Lizenzschlüssel anwenden
Bevor Sie fortfahren, stellen Sie sicher, dass Sie Ihren IronPDF-Lizenzschlüssel anwenden.
from ironpdf import PdfDocument
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
Ersetzen Sie YOUR-LICENSE-KEY-HERE
durch Ihren tatsächlichen IronPDF-Lizenzschlüssel. Diese Lizenz ermöglicht es Ihnen, alle Funktionen der Bibliothek für Ihr Projekt freizuschalten.
Sie müssen eine vorhandene PDF-Datei in Ihr Python-Programm laden. Sie können dies mit der PdfDocument.FromFile
-Methode von IronPDF erreichen.
pdfFileObj = PdfDocument.FromFile("content.pdf")
"content.pdf" bezieht sich auf die PDF-Datei, die Sie lesen möchten. Diese geladene PDF-Datei wird in der Variable pdfFileObj
gespeichert, die als PDF-Reader oder PDF-Dateiobjekt pdfFileObj
verwendet wird.
Wenn Sie alle Textdaten aus der PDF-Datei auf einmal extrahieren möchten, können Sie die ExtractAllText
-Methode verwenden.
all_text = pdfFileObj.ExtractAllText()
Die ExtractAllText
-Methode wird hier zu Demonstrationszwecken verwendet. Diese Methode extrahiert den gesamten Text aus der PDF-Datei und speichert ihn in einer Variablen namens all_text
.
IronPDF ermöglicht die Textextraktion von einer bestimmten Seite mithilfe der ExtractTextFromPage
-Methode. Diese Methode ist nützlich, wenn Sie nur Text von einigen Seiten benötigen.
page_2_text = pdfFileObj.ExtractTextFromPage(1)
Hier extrahieren wir Text von der zweiten Seite, die dem Index 1 entspricht.
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
Öffnen Sie eine Datei namens "extracted_text.txt", um die Textdaten zu speichern. Die in Python integrierte open
-Funktion wird hierfür verwendet, wobei der Dateimodus auf "write" ("w") gesetzt wird. Fügen Sie einfach encoding='utf-8'
als Argument zur open
-Funktion hinzu. Diese Funktion sollte es dem Textdokument ermöglichen, mit Unicode-Zeichen wie dem, auf das Sie gerade stoßen, umzugehen.
for i in range(0, pdfFileObj.get_Pages().Count):
Der obige Code durchläuft jede Seite in der PDF-Datei, indem er mit get_Pages().Count
von IronPDF die Gesamtzahl der Seiten ermittelt.
page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')
Für jede Seite wird die ExtractTextFromPage
-Methode verwendet, um den gesamten Text zu erhalten, und anschließend wird die split
-Methode von Python verwendet, um ihn in Zeilen zu unterteilen. Dies führt zu einer Liste von Zeilen, die durchlaufen werden können.
for eachline in lines:
print(eachline)
text_file.write(eachline + '\n')
Hier wird der Code jede Zeile in der Liste der Zeilen durchlaufen, sie in der Konsole ausgeben und in die Datei schreiben, indem er nach jeder Zeile ein Zeilenumbruch-Zeichen (\n) hinzufügt, um diesen Text richtig zu formatieren.
Vollständiger Code
Hier ist die umfassende Umsetzung:
from ironpdf import PdfDocument
# Apply your license key
License.LicenseKey = "Your-License-Key-Here"
# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")
# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()
# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)
# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w") as text_file:
# Print number of pages in PDF file print count of pages present in PDF file
num_of_pages = pdfFileObj.get_Pages().Count
print("Number of pages in given document are ", num_of_pages)
# Loop through each page using the Count property
for i in range(0, num_of_pages):
# Extract text from the current page
page_text = pdfFileObj.ExtractTextFromPage(i)
# Split the text by lines from this page object
lines = page_text.split('\n')
# Loop through the lines and print/write them
for eachline in lines:
print(eachline) # Print each eachline to the console
# Write each line to the text documents
text_file.write(eachline + '\n')
Ausgabe
Führen Sie die Python-Datei aus, indem Sie den folgenden Befehl in das Terminal von Visual Studio Code eingeben:
python main.py
Dieses Ergebnis wird auf dem Terminal angezeigt:

Der extrahierte Text
Es handelt sich um den abgerufenen Text aus der PDF-Datei. Sie werden auch feststellen, dass ein Textdokument in Ihrem Verzeichnis erstellt wurde.

Der extrahierte Text, der in der TXT-Datei gespeichert ist
In dieser Textdatei finden Sie das abgefragte Textformat, das der Reihe nach dargestellt wird.

Der Inhalt der extrahierten Textdatei
Schlussfolgerung
Zusammenfassend lässt sich sagen, dass die Verwendung von IronPDF und Python zur Extraktion von Text aus PDF-Dateien ein robuster und unkomplizierter Ansatz ist, unabhängig davon, ob der Text aus dem gesamten Dokument, aus bestimmten Seiten oder sogar zeilenweise abgerufen wird. Der zusätzliche Vorteil, den abgerufenen Text in einer Textdatei zu speichern, ermöglicht es Ihnen, die Daten effizient zu verwalten und für die weitere Verarbeitung zu nutzen. IronPDF erweist sich als ein unschätzbares Werkzeug für die Bearbeitung von PDFs, das eine Reihe von Funktionen bietet, die über die reine Textextraktion hinausgehen. Sie können auch PDF in Text in Python konvertieren mit IronPDF.
Darüber hinaus können mit dem IronPDF-Toolkit interaktive PDFs erstellt, interaktive Formulare ausgefüllt und eingereicht, PDF-Dateien zusammengeführt und geteilt, Text und Bilder extrahiert, Text innerhalb von PDF-Dateien durchsucht, PDFs in Bilder rasterisiert, Schriftgrößen, Rahmen- und Hintergrundfarbe geändert und PDF-Dateien konvertiert werden.
IronPDF ist keine Open-Source-Python-Bibliothek. Wenn Sie in Erwägung ziehen, IronPDF für Ihre Projekte zu verwenden, beginnt die Lizenz für das Paket bei $749. Wenn Sie jedoch eine Klärung bezüglich der Investition benötigen, bietet IronPDF eine kostenlose Testversion an, um die Funktionen gründlich zu erkunden.
