VERWENDUNG VON IRONPDF FOR PYTHON

Text zeilenweise aus PDF extrahieren

Aktualisiert 28. September 2024
Teilen Sie:

Dieser Leitfaden zeigt die Feinheiten der Verwendung von IronPDF zur sequentiellen Extraktion von Text aus PDF-Dokumenten in Python. Es wird alles abdecken, von der Einrichtung Ihrer Python-Umgebung bis zur Ausführung Ihres ersten Python-Programms zur Textextraktion aus PDFs.

Text zeilenweise aus PDF extrahieren

  1. Laden Sie die PDF-Bibliothek herunter und installieren Sie sie, um mit Python Text aus der PDF-Datei zu extrahieren.

  2. Erstellen Sie ein Python-Projekt in Ihrer bevorzugten IDE.

  3. Laden Sie die gewünschte PDF-Datei zum Abrufen von Textinhalten.

  4. Durchlaufen Sie die PDF-Datei in einer Schleife und extrahieren Sie den Text nacheinander mit der Funktion der integrierten Bibliothek.

  5. Speichern Sie den extrahierten Text in einer Datei.

IronPDF PDF for Python Bibliothek

IronPDF ist ein praktisches Werkzeug, mit dem Sie in Python mit PDF-Dateien arbeiten können. Betrachten Sie es als einen hilfreichen Assistenten, der Ihnen das Lesen, Erstellen und Bearbeiten von PDF-Dateien erleichtert. Ob Sie Inhalte aus einem PDF-Dokument extrahieren, neue Informationen einfügen oder eine Webseite in ein PDF-Format umwandeln möchten, IronPDF bietet umfassende Lösungen. Es handelt sich um ein kostenpflichtiges Softwarepaket, aber es wird eine Testversion angeboten, die Sie ausprobieren können, bevor Sie sich zum Kauf verpflichten.

Bevor Sie mit dem Skript beginnen, müssen Sie zunächst Ihre Python-Umgebung einrichten. Diese Schritt-für-Schritt-Anleitung hilft Ihnen, Ihre Umgebung zu konfigurieren, ein neues Python-Projekt in Visual Studio Code zu erstellen und die Umgebungskonfiguration der IronPDF-Bibliothek einzurichten.

Python herunterladen und installieren: Wenn Sie Python noch nicht installiert haben, laden Sie die neueste Version von deroffizielle Python-Website. Befolgen Sie die Installationsanweisungen für Ihr spezifisches Betriebssystem.

Prüfen Sie die Python-Installation: Öffnen Sie Ihr Terminal oder Ihre Eingabeaufforderung und geben Sie python --version ein. Dieser Befehl sollte die installierte Python-Version ausgeben und bestätigen, dass die Installation erfolgreich war.

Update pip: Pip ist das Python-Paket-Installationsprogramm. Stellen Sie sicher, dass es auf dem neuesten Stand ist, indem Sie pip install --upgrade pip ausführen.

Erstellen eines neuen Python-Projekts in Visual Studio Code

Visual Studio Code herunterladen: Wenn Sie es nicht haben, laden Sie es von deroffizielle Website.

Python-Erweiterung installieren: Öffnen Sie Visual Studio Code und gehen Sie zum Erweiterungsmarktplatz. Suchen Sie nach der Python-Erweiterung von Microsoft und installieren Sie sie.

Erstellen eines neuen Ordners: Erstellen Sie einen neuen Ordner, in dem Sie Ihr Python-Projekt unterbringen möchten. Geben Sie ihm einen aussagekräftigen Namen, z. B. PDF_Text_Extractor.

Öffnen des Ordners in VS Code: Ziehen Sie den Ordner in Visual Studio Code oder verwenden Sie die Menüoption Datei > Ordner öffnen, um den Ordner zu öffnen.

Erstellen einer Python-Datei: Klicken Sie mit der rechten Maustaste in das VS Code Explorer-Panel und wählen Sie Neue Datei. Nennen Sie die Datei main.py oder etwas Ähnliches. In dieser Datei wird Ihr Python-Programm gespeichert.

Wie man Text aus PDF zeilenweise extrahiert, Abbildung 1: Erstellen Sie eine neue Python-Datei in Visual Studio Code

Erstellen Sie eine neue Python-Datei in Visual Studio Code

IronPDF-Bibliotheksanforderung und Einrichtung

IronPDF ist für das Abrufen von Textinhalten aus PDFs unerlässlich. So wird sie installiert:

Terminal in VS Code öffnen: Sie können ein Terminal innerhalb von VS Code öffnen, indem Sie zu Terminal > Neues Terminal gehen.

IronPDF installieren: Führen Sie im Terminal die folgenden Schritte aus, um die neueste Version von IronPDF zu installieren:

 pip installieren ironpdf

Bei diesem Vorgang wird die IronPDF-Bibliothek zusammen mit allen erforderlichen Modulen abgerufen und installiert.

Wie man Text zeilenweise aus PDF extrahiert, Abbildung 2: IronPDF-Paket installieren

IronPDF-Paket installieren

Und da haben Sie es! Sie haben nun erfolgreich Ihre Python-Umgebung eingerichtet, ein neues Projekt in Visual Studio Code erstellt und die IronPDF-Bibliothek installiert.

Text zeilenweise aus PDF extrahieren

Lizenzschlüssel anwenden

Bevor Sie fortfahren, stellen Sie sicher, dass Sie Ihren IronPDF-Lizenzschlüssel anwenden.

from ironpdf import PdfDocument

License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
PYTHON

Ersetzen Sie YOUR-LICENSE-KEY-HERE mit Ihrem aktuellen IronPDF-Lizenzschlüssel. Diese Lizenz ermöglicht es Ihnen, alle Funktionen der Bibliothek für Ihr Projekt freizuschalten.

Laden des PDF-Dateiformats

Sie müssen eine vorhandene PDF-Datei in Ihr Python-Programm laden. Sie können dies mit der Methode PdfDocument.FromFile von IronPDF erreichen.

pdfFileObj = PdfDocument.FromFile("content.pdf")
PYTHON

"content.pdf" bezieht sich auf die PDF-Datei, die Sie lesen möchten. Diese geladene PDF-Datei wird in der Variable pdfFileObj gespeichert, die als PDF-Reader oder PDF-Dateiobjekt pdfFileObj verwendet wird.

Extrahieren von Text aus dem gesamten PDF-Dokument

Wenn Sie alle Textdaten aus der PDF-Datei auf einmal erfassen möchten, können Sie die Methode "ExtractAllText" verwenden.

all_text = pdfFileObj.ExtractAllText()
PYTHON

Die Methode ExtractAllText wird hier zu Demonstrationszwecken verwendet. Diese Methode extrahiert den gesamten Text aus der PDF-Datei und speichert ihn in einer Variablen namens "all_text".

Extrahieren von Text aus einer bestimmten PDF-Seite

IronPDF ermöglicht die Textextraktion aus einer bestimmten Seite mit der Methode ExtractTextFromPage. Diese Methode ist nützlich, wenn Sie nur Text von einigen Seiten benötigen.

page_2_text = pdfFileObj.ExtractTextFromPage(1)
PYTHON

Hier extrahieren wir Text von der zweiten Seite, die dem Index 1 entspricht.

Initialisierung einer Textdatei zum Schreiben von extrahiertem Text

with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
PYTHON

Öffnen Sie eine Datei namens "extracted_text.txt", um die Textdaten zu speichern. Die in Python integrierte Funktion open wird hierfür verwendet, wobei der Dateimodus auf "write" gesetzt wird.("w "). Fügen Sie einfach encoding='utf-8' als Argument zur Funktion open hinzu. Diese Funktion sollte es dem Textdokument ermöglichen, mit Unicode-Zeichen wie dem, auf das Sie gerade stoßen, umzugehen.

Schleife durch jede Seite für zeilenweise Textextraktion

for i in range(0, pdfFileObj.get_Pages().Count):
PYTHON

Der obige Code durchläuft jede Seite in der PDF-Datei unter Verwendung von IronPDF's get_Pages.().Count", um die Gesamtzahl der Seiten zu ermitteln.

Text extrahieren und in Zeilen unterteilen

page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')
PYTHON

Für jede Seite wird die Methode ExtractTextFromPage verwendet, um den gesamten Text zu erhalten, und dann wird die split-Methode von Python verwendet, um ihn in Zeilen aufzuteilen. Dies führt zu einer Liste von Zeilen, die durchlaufen werden können.

Extrahierte Zeilen in eine Textdatei schreiben

for eachline in lines:
    print(eachline)
    text_file.write(eachline + '\n')
PYTHON

Hier iteriert der Code durch jede Zeile in der Liste der Zeilen, druckt sie auf die Konsole und schreibt sie in die Datei, indem er ein Zeilenumbruchzeichen hinzufügt.(\n) nach jeder Zeile, um diesen Text richtig zu formatieren.

Vollständiger Code

Hier ist die umfassende Umsetzung:

from ironpdf import PdfDocument

# Apply your license key
License.LicenseKey = "Your-License-Key-Here"

# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")

# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()

# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)

# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w") as text_file:
    # Print number of pages in PDF file print count of pages present in PDF file
    num_of_pages = pdfFileObj.get_Pages().Count
    print("Number of pages in given document are ", num_of_pages)

    # Loop through each page using the Count property
    for i in range(0, num_of_pages):

        # Extract text from the current page
        page_text = pdfFileObj.ExtractTextFromPage(i)

        # Split the text by lines from this page object
        lines = page_text.split('\n')

        # Loop through the lines and print/write them
        for eachline in lines:
            print(eachline)  # Print each eachline to the console
            # Write each line to the text documents
            text_file.write(eachline + '\n')
PYTHON

Ausgabe

Führen Sie die Python-Datei aus, indem Sie den folgenden Befehl in das Terminal von Visual Studio Code eingeben:

python main.py

Dieses Ergebnis wird auf dem Terminal angezeigt:

So extrahieren Sie Text zeilenweise aus PDF, Abbildung 3: Der extrahierte Text

Der extrahierte Text

Es handelt sich um den abgerufenen Text aus der PDF-Datei. Sie werden auch feststellen, dass ein Textdokument in Ihrem Verzeichnis erstellt wurde.

So extrahieren Sie Text aus PDF Zeile für Zeile, Abbildung 4: Der extrahierte Text im TXT-Datei gespeichert

Der extrahierte Text, der in einer TXT-Datei gespeichert ist

In dieser Textdatei finden Sie das abgefragte Textformat, das der Reihe nach dargestellt wird.

So extrahieren Sie Text zeilenweise aus einer PDF-Datei, Abbildung 5: Der extrahierte Textdateiinhalt

Der Inhalt der extrahierten Textdatei

Schlussfolgerung

Zusammenfassend lässt sich sagen, dass die Verwendung von IronPDF und Python zur Extraktion von Text aus PDF-Dateien ein robuster und unkomplizierter Ansatz ist, unabhängig davon, ob der Text aus dem gesamten Dokument, aus bestimmten Seiten oder sogar zeilenweise abgerufen wird. Der zusätzliche Vorteil, den abgerufenen Text in einer Textdatei zu speichern, ermöglicht es Ihnen, die Daten effizient zu verwalten und für die weitere Verarbeitung zu nutzen. IronPDF erweist sich als ein unschätzbares Werkzeug für die Bearbeitung von PDFs, das eine Reihe von Funktionen bietet, die über die reine Textextraktion hinausgehen. Sie können auchpDF in Text umwandeln in Python ironPDF verwenden.

Zusätzlich interaktive PDFs erstellen, ausfüllen und einreichenInteraktive Formulare, zusammenlegung undteilenPDF-Dateien,extraktion von Text und Bildern, nach Text in PDF-Dateien suchen, Rasterisierung von PDFs zu BildernÄndern der Schriftgröße, des Rahmens und der Hintergrundfarbe sowie das Konvertieren von PDF-Dateien sind alles Aufgaben, bei denen das IronPDF-Toolkit helfen kann.

IronPDF ist keine Open-Source-Python-Bibliothek. Wenn Sie IronPDF für Ihre Projekte verwenden möchten, beginnt die Lizenz für das Paket bei $749. Wenn Sie jedoch eine Klarstellung zu den Investitionen benötigen, bietet IronPDF einekostenloser Test um seine Funktionen gründlich zu erkunden.

Wie man Text Zeile für Zeile aus PDF extrahiert, Abbildung 6: Die Lizenzierungsseite

< PREVIOUS
Wie man in Python Daten aus PDF-Dateien extrahiert
NÄCHSTES >
So annotieren Sie ganz einfach PDFs in Python mit IronPDF

Sind Sie bereit, loszulegen? Version: 2024.9 gerade veröffentlicht

pip install gratuit Lizenzen anzeigen >