VERWENDUNG VON IRONPDF FOR PYTHON

Text zeilenweise aus PDF extrahieren

Dieser Leitfaden zeigt die Feinheiten der Verwendung von IronPDF zur sequentiellen Extraktion von Text aus PDF-Dokumenten in Python. Es wird alles abdecken, von der Einrichtung Ihrer Python-Umgebung bis zur Ausführung Ihres ersten Python-Programms zur Textextraktion aus PDFs.

Text zeilenweise aus PDF extrahieren

  1. Laden Sie die PDF-Bibliothek herunter und installieren Sie sie, um mit Python Text aus der PDF-Datei zu extrahieren.

  2. Erstellen Sie ein Python-Projekt in Ihrer bevorzugten IDE.

  3. Laden Sie die gewünschte PDF-Datei zum Abrufen von Textinhalten.

  4. Durchlaufen Sie die PDF-Datei in einer Schleife und extrahieren Sie den Text nacheinander mit der Funktion der integrierten Bibliothek.

  5. Speichern Sie den extrahierten Text in einer Datei.

IronPDF PDF for Python Bibliothek

IronPDF ist ein praktisches Werkzeug, mit dem Sie in Python mit PDF-Dateien arbeiten können. Betrachten Sie es als einen hilfreichen Assistenten, der Ihnen das Lesen, Erstellen und Bearbeiten von PDF-Dateien erleichtert. Ob Sie Inhalte aus einem PDF-Dokument extrahieren, neue Informationen einfügen oder eine Webseite in ein PDF-Format umwandeln möchten, IronPDF bietet umfassende Lösungen. Es handelt sich um ein kostenpflichtiges Softwarepaket, aber es wird eine Testversion angeboten, die Sie ausprobieren können, bevor Sie sich zum Kauf verpflichten.

Bevor Sie mit dem Skript beginnen, müssen Sie zunächst Ihre Python-Umgebung einrichten. Diese Schritt-für-Schritt-Anleitung hilft Ihnen, Ihre Umgebung zu konfigurieren, ein neues Python-Projekt in Visual Studio Code zu erstellen und die Umgebungskonfiguration der IronPDF-Bibliothek einzurichten.

Download und Installation von Python: Wenn Sie Python noch nicht installiert haben, laden Sie die neueste Version von der offiziellen Python-Website herunter. Befolgen Sie die Installationsanweisungen für Ihr spezifisches Betriebssystem.

Python-Installation überprüfen: Öffnen Sie Ihr Terminal oder die Eingabeaufforderung und geben Sie python --version ein. Dieser Befehl sollte die installierte Python-Version ausgeben und bestätigen, dass die Installation erfolgreich war.

Pip aktualisieren: Pip ist der Paketinstaller von Python. Stellen Sie sicher, dass es auf dem neuesten Stand ist, indem Sie pip install --upgrade pip ausführen.

Erstellen eines neuen Python-Projekts in Visual Studio Code

Visual Studio Code herunterladen: Wenn Sie es noch nicht haben, laden Sie es von der offiziellen Website herunter.

Python-Erweiterung installieren: Öffnen Sie Visual Studio Code und gehen Sie zum Erweiterungs-Marktplatz. Suchen Sie nach der Python-Erweiterung von Microsoft und installieren Sie sie.

Neuen Ordner erstellen: Erstellen Sie einen neuen Ordner, in dem Sie Ihr Python-Projekt unterbringen möchten. Bennennen Sie es etwas Relevantes, wie PDF_Text_Extractor.

Ordner in VS Code öffnen: Ziehen Sie den Ordner in Visual Studio Code oder nutzen Sie die Menüoption Datei > Ordner öffnen, um den Ordner zu öffnen.

Erstellen Sie eine Python-Datei: Klicken Sie mit der rechten Maustaste im VS Code Explorer-Panel und wählen Sie Neue Datei. Benennen Sie die Datei main.py oder etwas Ähnliches. In dieser Datei wird Ihr Python-Programm gespeichert.

Wie man Text zeilenweise aus PDF extrahiert, Abbildung 1: Neues Python-Datei in Visual Studio Code erstellen

Neue Python-Datei in Visual Studio Code erstellen

IronPDF-Bibliotheksanforderung und Einrichtung

IronPDF ist für das Abrufen von Textinhalten aus PDFs unerlässlich. So wird sie installiert:

Terminal in VS Code öffnen: Sie können ein Terminal in VS Code öffnen, indem Sie zu Terminal > Neues Terminal gehen.

Installieren Sie IronPDF: Führen Sie im Terminal folgendes aus, um die neueste Version von IronPDF zu installieren:

 pip installieren ironpdf

Bei diesem Vorgang wird die IronPDF-Bibliothek zusammen mit allen erforderlichen Modulen abgerufen und installiert.

Wie man Text Zeile für Zeile aus einem PDF extrahiert, Abbildung 2: IronPDF-Paket installieren

IronPDF-Paket installieren

Und da haben Sie es! Sie haben nun erfolgreich Ihre Python-Umgebung eingerichtet, ein neues Projekt in Visual Studio Code erstellt und die IronPDF-Bibliothek installiert.

Text zeilenweise aus PDF extrahieren

Lizenzschlüssel anwenden

Bevor Sie fortfahren, stellen Sie sicher, dass Sie Ihren IronPDF-Lizenzschlüssel anwenden.

from ironpdf import PdfDocument

License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
py
PYTHON

Ersetzen Sie YOUR-LICENSE-KEY-HERE durch Ihren tatsächlichen IronPDF-Lizenzschlüssel. Diese Lizenz ermöglicht es Ihnen, alle Funktionen der Bibliothek für Ihr Projekt freizuschalten.

Laden des PDF-Dateiformats

Sie müssen eine vorhandene PDF-Datei in Ihr Python-Programm laden. Sie können dies mit der PdfDocument.FromFile-Methode von IronPDF erreichen.

pdfFileObj = PdfDocument.FromFile("content.pdf")
py
PYTHON

"content.pdf" bezieht sich auf die PDF-Datei, die Sie lesen möchten. Diese geladene PDF-Datei wird in der Variable pdfFileObj gespeichert, die als PDF-Reader oder PDF-Dateiobjekt pdfFileObj verwendet wird.

Extrahieren von Text aus dem gesamten PDF-Dokument

Wenn Sie alle Textdaten aus der PDF-Datei auf einmal extrahieren möchten, können Sie die ExtractAllText-Methode verwenden.

all_text = pdfFileObj.ExtractAllText()
py
PYTHON

Die ExtractAllText-Methode wird hier zu Demonstrationszwecken verwendet. Diese Methode extrahiert den gesamten Text aus der PDF-Datei und speichert ihn in einer Variablen namens all_text.

Extrahieren von Text aus einer bestimmten PDF-Seite

IronPDF ermöglicht die Textextraktion von einer bestimmten Seite mithilfe der ExtractTextFromPage-Methode. Diese Methode ist nützlich, wenn Sie nur Text von einigen Seiten benötigen.

page_2_text = pdfFileObj.ExtractTextFromPage(1)
py
PYTHON

Hier extrahieren wir Text von der zweiten Seite, die dem Index 1 entspricht.

Initialisierung einer Textdatei zum Schreiben von extrahiertem Text

with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
py
PYTHON

Öffnen Sie eine Datei namens "extracted_text.txt", um die Textdaten zu speichern. Die in Python integrierte open-Funktion wird hierfür verwendet, wobei der Dateimodus auf "write" ("w") gesetzt wird. Fügen Sie einfach encoding='utf-8' als Argument zur open-Funktion hinzu. Diese Funktion sollte es dem Textdokument ermöglichen, mit Unicode-Zeichen wie dem, auf das Sie gerade stoßen, umzugehen.

Schleife durch jede Seite für zeilenweise Textextraktion

for i in range(0, pdfFileObj.get_Pages().Count):
py
PYTHON

Der obige Code durchläuft jede Seite in der PDF-Datei, indem er mit get_Pages().Count von IronPDF die Gesamtzahl der Seiten ermittelt.

Text extrahieren und in Zeilen unterteilen

page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')
py
PYTHON

Für jede Seite wird die ExtractTextFromPage-Methode verwendet, um den gesamten Text zu erhalten, und anschließend wird die split-Methode von Python verwendet, um ihn in Zeilen zu unterteilen. Dies führt zu einer Liste von Zeilen, die durchlaufen werden können.

Extrahierte Zeilen in eine Textdatei schreiben

for eachline in lines:
    print(eachline)
    text_file.write(eachline + '\n')
py
PYTHON

Hier wird der Code jede Zeile in der Liste der Zeilen durchlaufen, sie in der Konsole ausgeben und in die Datei schreiben, indem er nach jeder Zeile ein Zeilenumbruch-Zeichen (\n) hinzufügt, um diesen Text richtig zu formatieren.

Vollständiger Code

Hier ist die umfassende Umsetzung:

from ironpdf import PdfDocument

# Apply your license key
License.LicenseKey = "Your-License-Key-Here"

# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")

# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()

# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)

# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w") as text_file:
    # Print number of pages in PDF file print count of pages present in PDF file
    num_of_pages = pdfFileObj.get_Pages().Count
    print("Number of pages in given document are ", num_of_pages)

    # Loop through each page using the Count property
    for i in range(0, num_of_pages):

        # Extract text from the current page
        page_text = pdfFileObj.ExtractTextFromPage(i)

        # Split the text by lines from this page object
        lines = page_text.split('\n')

        # Loop through the lines and print/write them
        for eachline in lines:
            print(eachline)  # Print each eachline to the console
            # Write each line to the text documents
            text_file.write(eachline + '\n')
py
PYTHON

Ausgabe

Führen Sie die Python-Datei aus, indem Sie den folgenden Befehl in das Terminal von Visual Studio Code eingeben:

python main.py
python main.py
SHELL

Dieses Ergebnis wird auf dem Terminal angezeigt:

Wie man Text aus PDF zeilenweise extrahiert, Abbildung 3: Der extrahierte Text

Der extrahierte Text

Es handelt sich um den abgerufenen Text aus der PDF-Datei. Sie werden auch feststellen, dass ein Textdokument in Ihrem Verzeichnis erstellt wurde.

Wie man Text zeilenweise aus PDF extrahiert, Abbildung 4: Der extrahierte Text im TXT-Datei gespeichert

Der extrahierte Text, der in der TXT-Datei gespeichert ist

In dieser Textdatei finden Sie das abgefragte Textformat, das der Reihe nach dargestellt wird.

Wie man Text zeilenweise aus PDF extrahiert, Abbildung 5: Der Inhalt der extrahierten Textdatei

Der Inhalt der extrahierten Textdatei

Schlussfolgerung

Zusammenfassend lässt sich sagen, dass die Verwendung von IronPDF und Python zur Extraktion von Text aus PDF-Dateien ein robuster und unkomplizierter Ansatz ist, unabhängig davon, ob der Text aus dem gesamten Dokument, aus bestimmten Seiten oder sogar zeilenweise abgerufen wird. Der zusätzliche Vorteil, den abgerufenen Text in einer Textdatei zu speichern, ermöglicht es Ihnen, die Daten effizient zu verwalten und für die weitere Verarbeitung zu nutzen. IronPDF erweist sich als ein unschätzbares Werkzeug für die Bearbeitung von PDFs, das eine Reihe von Funktionen bietet, die über die reine Textextraktion hinausgehen. Sie können auch PDF in Text in Python konvertieren mit IronPDF.

Darüber hinaus können mit dem IronPDF-Toolkit interaktive PDFs erstellt, interaktive Formulare ausgefüllt und eingereicht, PDF-Dateien zusammengeführt und geteilt, Text und Bilder extrahiert, Text innerhalb von PDF-Dateien durchsucht, PDFs in Bilder rasterisiert, Schriftgrößen, Rahmen- und Hintergrundfarbe geändert und PDF-Dateien konvertiert werden.

IronPDF ist keine Open-Source-Python-Bibliothek. Wenn Sie in Erwägung ziehen, IronPDF für Ihre Projekte zu verwenden, beginnt die Lizenz für das Paket bei $749. Wenn Sie jedoch eine Klärung bezüglich der Investition benötigen, bietet IronPDF eine kostenlose Testversion an, um die Funktionen gründlich zu erkunden.

So extrahieren Sie Text zeilenweise aus PDF, Abbildung 6: Die Lizenzierungsseite

Chaknith Bin
Software-Ingenieur
Chaknith arbeitet an IronXL und IronBarcode. Er hat tiefgehende Expertise in C# und .NET und hilft, die Software zu verbessern und Kunden zu unterstützen. Seine Erkenntnisse aus Benutzerinteraktionen tragen zu besseren Produkten, Dokumentation und einem insgesamt besseren Erlebnis bei.
< PREVIOUS
Wie man in Python Daten aus PDF-Dateien extrahiert
NÄCHSTES >
So annotieren Sie ganz einfach PDFs in Python mit IronPDF

Sind Sie bereit, loszulegen? Version: 2025.5 gerade veröffentlicht

Lizenzen anzeigen >