Test in einer Live-Umgebung
Test in der Produktion ohne Wasserzeichen.
Funktioniert überall, wo Sie es brauchen.
Dieser Leitfaden zeigt die Feinheiten der Verwendung von IronPDF zur sequentiellen Extraktion von Text aus PDF-Dokumenten in Python. Es wird alles abdecken, von der Einrichtung Ihrer Python-Umgebung bis zur Ausführung Ihres ersten Python-Programms zur Textextraktion aus PDFs.
Laden Sie die PDF-Bibliothek herunter und installieren Sie sie, um mit Python Text aus der PDF-Datei zu extrahieren.
Erstellen Sie ein Python-Projekt in Ihrer bevorzugten IDE.
Laden Sie die gewünschte PDF-Datei zum Abrufen von Textinhalten.
Durchlaufen Sie die PDF-Datei in einer Schleife und extrahieren Sie den Text nacheinander mit der Funktion der integrierten Bibliothek.
IronPDF ist ein praktisches Werkzeug, mit dem Sie in Python mit PDF-Dateien arbeiten können. Betrachten Sie es als einen hilfreichen Assistenten, der Ihnen das Lesen, Erstellen und Bearbeiten von PDF-Dateien erleichtert. Ob Sie Inhalte aus einem PDF-Dokument extrahieren, neue Informationen einfügen oder eine Webseite in ein PDF-Format umwandeln möchten, IronPDF bietet umfassende Lösungen. Es handelt sich um ein kostenpflichtiges Softwarepaket, aber es wird eine Testversion angeboten, die Sie ausprobieren können, bevor Sie sich zum Kauf verpflichten.
Bevor Sie mit dem Skript beginnen, müssen Sie zunächst Ihre Python-Umgebung einrichten. Diese Schritt-für-Schritt-Anleitung hilft Ihnen, Ihre Umgebung zu konfigurieren, ein neues Python-Projekt in Visual Studio Code zu erstellen und die Umgebungskonfiguration der IronPDF-Bibliothek einzurichten.
Python herunterladen und installieren: Wenn Sie Python noch nicht installiert haben, laden Sie die neueste Version von deroffizielle Python-Website. Befolgen Sie die Installationsanweisungen für Ihr spezifisches Betriebssystem.
Prüfen Sie die Python-Installation: Öffnen Sie Ihr Terminal oder Ihre Eingabeaufforderung und geben Sie python --version ein. Dieser Befehl sollte die installierte Python-Version ausgeben und bestätigen, dass die Installation erfolgreich war.
Update pip: Pip ist das Python-Paket-Installationsprogramm. Stellen Sie sicher, dass es auf dem neuesten Stand ist, indem Sie pip install --upgrade pip ausführen.
Visual Studio Code herunterladen: Wenn Sie es nicht haben, laden Sie es von deroffizielle Website.
Python-Erweiterung installieren: Öffnen Sie Visual Studio Code und gehen Sie zum Erweiterungsmarktplatz. Suchen Sie nach der Python-Erweiterung von Microsoft und installieren Sie sie.
Erstellen eines neuen Ordners: Erstellen Sie einen neuen Ordner, in dem Sie Ihr Python-Projekt unterbringen möchten. Geben Sie ihm einen aussagekräftigen Namen, z. B. PDF_Text_Extractor.
Öffnen des Ordners in VS Code: Ziehen Sie den Ordner in Visual Studio Code oder verwenden Sie die Menüoption Datei > Ordner öffnen, um den Ordner zu öffnen.
Erstellen einer Python-Datei: Klicken Sie mit der rechten Maustaste in das VS Code Explorer-Panel und wählen Sie Neue Datei. Nennen Sie die Datei main.py oder etwas Ähnliches. In dieser Datei wird Ihr Python-Programm gespeichert.
Erstellen Sie eine neue Python-Datei in Visual Studio Code
IronPDF ist für das Abrufen von Textinhalten aus PDFs unerlässlich. So wird sie installiert:
Terminal in VS Code öffnen: Sie können ein Terminal innerhalb von VS Code öffnen, indem Sie zu Terminal > Neues Terminal gehen.
IronPDF installieren: Führen Sie im Terminal die folgenden Schritte aus, um die neueste Version von IronPDF zu installieren:
pip installieren ironpdf
Bei diesem Vorgang wird die IronPDF-Bibliothek zusammen mit allen erforderlichen Modulen abgerufen und installiert.
IronPDF-Paket installieren
Und da haben Sie es! Sie haben nun erfolgreich Ihre Python-Umgebung eingerichtet, ein neues Projekt in Visual Studio Code erstellt und die IronPDF-Bibliothek installiert.
Bevor Sie fortfahren, stellen Sie sicher, dass Sie Ihren IronPDF-Lizenzschlüssel anwenden.
from ironpdf import PdfDocument
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
Ersetzen Sie YOUR-LICENSE-KEY-HERE
mit Ihrem aktuellen IronPDF-Lizenzschlüssel. Diese Lizenz ermöglicht es Ihnen, alle Funktionen der Bibliothek für Ihr Projekt freizuschalten.
Sie müssen eine vorhandene PDF-Datei in Ihr Python-Programm laden. Sie können dies mit der Methode PdfDocument.FromFile
von IronPDF erreichen.
pdfFileObj = PdfDocument.FromFile("content.pdf")
"content.pdf" bezieht sich auf die PDF-Datei, die Sie lesen möchten. Diese geladene PDF-Datei wird in der Variable pdfFileObj
gespeichert, die als PDF-Reader oder PDF-Dateiobjekt pdfFileObj
verwendet wird.
Wenn Sie alle Textdaten aus der PDF-Datei auf einmal erfassen möchten, können Sie die Methode "ExtractAllText" verwenden.
all_text = pdfFileObj.ExtractAllText()
Die Methode ExtractAllText
wird hier zu Demonstrationszwecken verwendet. Diese Methode extrahiert den gesamten Text aus der PDF-Datei und speichert ihn in einer Variablen namens "all_text".
IronPDF ermöglicht die Textextraktion aus einer bestimmten Seite mit der Methode ExtractTextFromPage
. Diese Methode ist nützlich, wenn Sie nur Text von einigen Seiten benötigen.
page_2_text = pdfFileObj.ExtractTextFromPage(1)
Hier extrahieren wir Text von der zweiten Seite, die dem Index 1 entspricht.
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
Öffnen Sie eine Datei namens "extracted_text.txt", um die Textdaten zu speichern. Die in Python integrierte Funktion open
wird hierfür verwendet, wobei der Dateimodus auf "write" gesetzt wird.("w "). Fügen Sie einfach encoding='utf-8'
als Argument zur Funktion open
hinzu. Diese Funktion sollte es dem Textdokument ermöglichen, mit Unicode-Zeichen wie dem, auf das Sie gerade stoßen, umzugehen.
for i in range(0, pdfFileObj.get_Pages().Count):
Der obige Code durchläuft jede Seite in der PDF-Datei unter Verwendung von IronPDF's get_Pages
.().Count", um die Gesamtzahl der Seiten zu ermitteln.
page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')
Für jede Seite wird die Methode ExtractTextFromPage
verwendet, um den gesamten Text zu erhalten, und dann wird die split
-Methode von Python verwendet, um ihn in Zeilen aufzuteilen. Dies führt zu einer Liste von Zeilen, die durchlaufen werden können.
for eachline in lines:
print(eachline)
text_file.write(eachline + '\n')
Hier iteriert der Code durch jede Zeile in der Liste der Zeilen, druckt sie auf die Konsole und schreibt sie in die Datei, indem er ein Zeilenumbruchzeichen hinzufügt.(\n) nach jeder Zeile, um diesen Text richtig zu formatieren.
Hier ist die umfassende Umsetzung:
from ironpdf import PdfDocument
# Apply your license key
License.LicenseKey = "Your-License-Key-Here"
# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")
# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()
# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)
# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w") as text_file:
# Print number of pages in PDF file print count of pages present in PDF file
num_of_pages = pdfFileObj.get_Pages().Count
print("Number of pages in given document are ", num_of_pages)
# Loop through each page using the Count property
for i in range(0, num_of_pages):
# Extract text from the current page
page_text = pdfFileObj.ExtractTextFromPage(i)
# Split the text by lines from this page object
lines = page_text.split('\n')
# Loop through the lines and print/write them
for eachline in lines:
print(eachline) # Print each eachline to the console
# Write each line to the text documents
text_file.write(eachline + '\n')
Führen Sie die Python-Datei aus, indem Sie den folgenden Befehl in das Terminal von Visual Studio Code eingeben:
python main.py
Dieses Ergebnis wird auf dem Terminal angezeigt:
Der extrahierte Text
Es handelt sich um den abgerufenen Text aus der PDF-Datei. Sie werden auch feststellen, dass ein Textdokument in Ihrem Verzeichnis erstellt wurde.
Der extrahierte Text, der in einer TXT-Datei gespeichert ist
In dieser Textdatei finden Sie das abgefragte Textformat, das der Reihe nach dargestellt wird.
Der Inhalt der extrahierten Textdatei
Zusammenfassend lässt sich sagen, dass die Verwendung von IronPDF und Python zur Extraktion von Text aus PDF-Dateien ein robuster und unkomplizierter Ansatz ist, unabhängig davon, ob der Text aus dem gesamten Dokument, aus bestimmten Seiten oder sogar zeilenweise abgerufen wird. Der zusätzliche Vorteil, den abgerufenen Text in einer Textdatei zu speichern, ermöglicht es Ihnen, die Daten effizient zu verwalten und für die weitere Verarbeitung zu nutzen. IronPDF erweist sich als ein unschätzbares Werkzeug für die Bearbeitung von PDFs, das eine Reihe von Funktionen bietet, die über die reine Textextraktion hinausgehen. Sie können auchpDF in Text umwandeln in Python ironPDF verwenden.
Zusätzlich interaktive PDFs erstellen, ausfüllen und einreichenInteraktive Formulare, zusammenlegung undteilenPDF-Dateien,extraktion von Text und Bildern, nach Text in PDF-Dateien suchen, Rasterisierung von PDFs zu BildernÄndern der Schriftgröße, des Rahmens und der Hintergrundfarbe sowie das Konvertieren von PDF-Dateien sind alles Aufgaben, bei denen das IronPDF-Toolkit helfen kann.
IronPDF ist keine Open-Source-Python-Bibliothek. Wenn Sie IronPDF für Ihre Projekte verwenden möchten, beginnt die Lizenz für das Paket bei $749. Wenn Sie jedoch eine Klarstellung zu den Investitionen benötigen, bietet IronPDF einekostenloser Test um seine Funktionen gründlich zu erkunden.
9 .NET API-Produkte für Ihre Bürodokumente