Zum Fußzeileninhalt springen
VERWENDUNG VON IRONPDF FüR PYTHON

Wie man Text aus einem PDF Zeile für Zeile extrahiert

Dieser Leitfaden zeigt die Feinheiten der Verwendung von IronPDF zur sequentiellen Extraktion von Text aus PDF-Dokumenten in Python. Sie wird alles abdecken, von der Einrichtung Ihrer Python-Umgebung bis zur Ausführung Ihres ersten Python-Programms für die PDF-Textextraktion.

Text zeilenweise aus PDF extrahieren

  1. Laden Sie die PDF-Bibliothek herunter und installieren Sie sie mit Python, um Text aus der PDF-Datei zu extrahieren.
  2. Erstellen Sie ein Python-Projekt in Ihrer bevorzugten IDE.
  3. Laden Sie die gewünschte PDF-Datei, um den Textinhalt abzurufen.
  4. Durchlaufen Sie die PDF-Datei in einer Schleife und extrahieren Sie den Text nacheinander mit der Funktion der integrierten Bibliothek.
  5. Speichern Sie den extrahierten Text in einer Datei.

IronPDF PDF Python Library

IronPDF ist ein praktisches Tool, mit dem Sie in Python mit PDF-Dateien arbeiten können. Stellen Sie sich die Übersetzung als einen hilfreichen Assistenten vor, der das Lesen, Erstellen und Bearbeiten von PDF-Dateien zugänglich macht. Egal, ob Sie Inhalte aus einem PDF-Dokument extrahieren, neue Informationen einfügen oder eine Webseite in ein PDF-Format umwandeln möchten, IronPDF bietet umfassende Lösungen. Es handelt sich um ein kostenpflichtiges Softwarepaket, aber es wird eine Testversion angeboten, die Sie ausprobieren können, bevor Sie sich zum Kauf verpflichten.

Bevor Sie mit dem Skript beginnen, müssen Sie Ihre Python-Umgebung einrichten. Diese Schritt-für-Schritt-Anleitung hilft Ihnen, Ihre Umgebung zu konfigurieren, ein neues Python-Projekt in Visual Studio Code zu erstellen und die Konfiguration der IronPDF-Bibliotheksumgebung einzurichten.

Python herunterladen und installieren: Wenn Sie Python nicht installiert haben, laden Sie die neueste Version von der offiziellen Python-Website herunter. Befolgen Sie die Installationsanweisungen für Ihr spezifisches Betriebssystem.

Überprüfen Sie die Python-Installation: Öffnen Sie Ihr Terminal oder Ihre Eingabeaufforderung und geben Sie python --version ein. Dieser Befehl sollte die installierte Python-Version ausgeben, um zu bestätigen, dass die Installation erfolgreich war.

Update pip: Pip ist das Installationsprogramm für Python-Pakete. Stellen Sie sicher, dass sie auf dem neuesten Stand ist, indem Sie pip install --upgrade pip ausführen.

Erstellen eines neuen Python-Projekts in Visual Studio Code

Visual Studio Code herunterladen: Wenn Sie es nicht haben, können Sie es von der offiziellen Website herunterladen.

Python-Erweiterung installieren: Öffnen Sie Visual Studio Code und gehen Sie zum Erweiterungsmarktplatz. Suchen Sie nach der Python-Erweiterung von Microsoft und installieren Sie sie.

Erstellen eines neuen Ordners: Erstellen Sie einen neuen Ordner, in dem Sie Ihr Python-Projekt unterbringen möchten. Geben Sie der Übersetzung einen aussagekräftigen Namen, z. B. PDF_Text_Extractor.

Öffnen Sie den Ordner in VS Code: Ziehen Sie den Ordner in Visual Studio Code oder verwenden Sie die Menüoption Datei > Ordner öffnen, um den Ordner zu öffnen.

Erstellen Sie eine Python-Datei: Klicken Sie mit der rechten Maustaste in das VS Code Explorer Panel und wählen Sie Neue Datei. Nennen Sie die Datei main.py oder etwas Ähnliches. Diese Datei wird Ihr Python-Programm enthalten.

Text zeilenweise aus PDF extrahieren, Abbildung 1: Neue Python-Datei in Visual Studio Code erstellen Erstellen einer neuen Python-Datei in Visual Studio Code

IronPDF Bibliothek - Anforderungen und Einrichtung

IronPDF ist für das Abrufen von Textinhalten aus PDFs unerlässlich. So wird sie installiert:

Terminal in VS Code öffnen: Sie können ein Terminal in VS Code öffnen, indem Sie zu Terminal > Neues Terminal gehen.

Installieren Sie IronPDF: Führen Sie im Terminal den folgenden Befehl aus, um die neueste Version von IronPDF zu installieren:

pip install ironpdf

Bei diesem Prozess wird die IronPDF-Bibliothek zusammen mit allen erforderlichen Modulen abgerufen und installiert.

Text zeilenweise aus PDF extrahieren, Abbildung 2: IronPDF Paket installieren IronPDF-Paket installieren

Und da haben Sie es! Sie haben nun erfolgreich Ihre Python-Umgebung eingerichtet, ein neues Projekt in Visual Studio Code erstellt und die IronPDF-Bibliothek installiert.

Text zeilenweise aus PDF extrahieren

Lizenzschlüssel anwenden

Bevor Sie fortfahren, stellen Sie sicher, dass Sie Ihren IronPDF-Lizenzschlüssel anwenden.

from ironpdf import PdfDocument

# Apply your license key to unlock library features
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
from ironpdf import PdfDocument

# Apply your license key to unlock library features
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
PYTHON

Ersetzen Sie IHR-LIZENZSCHLÜSSEL-HIER mit Ihrem tatsächlichen IronPDF-Lizenzschlüssel. Diese Lizenz ermöglicht es Ihnen, alle Bibliotheksfunktionen für Ihr Projekt freizuschalten.

Laden des PDF-Dateiformats

Sie müssen eine vorhandene PDF-Datei in Ihr Python-Programm laden. Dies können Sie mit der Methode PdfDocument.FromFile von IronPDF erreichen.

pdfFileObj = PdfDocument.FromFile("content.pdf")
pdfFileObj = PdfDocument.FromFile("content.pdf")
PYTHON

"content.pdf" bezieht sich auf die PDF-Datei, die Sie lesen möchten. Diese geladene PDF-Datei wird in der Variable pdfFileObj gespeichert, die als PDF-Reader oder PDF-Dateiobjekt pdfFileObj verwendet wird.

Text aus dem gesamten PDF-Dokument extrahieren

Wenn Sie alle Textdaten aus der PDF-Datei auf einmal erfassen möchten, können Sie die Methode ExtractAllText verwenden.

all_text = pdfFileObj.ExtractAllText()
all_text = pdfFileObj.ExtractAllText()
PYTHON

Die Methode ExtractAllText wird hier zu Demonstrationszwecken verwendet. Diese Methode extrahiert den gesamten Text aus der PDF-Datei und speichert ihn in einer Variablen namens all_text.

Text aus einer bestimmten PDF-Seite extrahieren

IronPDF ermöglicht die Textextraktion aus einer bestimmten Seite mithilfe der Methode ExtractTextFromPage. Diese Methode ist nützlich, wenn Sie nur Text von einigen Seiten benötigen.

page_2_text = pdfFileObj.ExtractTextFromPage(1)
page_2_text = pdfFileObj.ExtractTextFromPage(1)
PYTHON

Hier extrahieren wir Text von der zweiten Seite, die einem Index von 1 entspricht.

Initialisierung einer Textdatei zum Schreiben von extrahiertem Text

with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
PYTHON

Öffnen Sie eine Datei mit dem Namen "extracted_text.txt", um die Textdaten zu speichern. Hierfür wird die in Python eingebaute Funktion open verwendet, wobei der Dateimodus auf "write" ("w") gesetzt wird, mit encoding='utf-8', um Unicode-Zeichen zu verarbeiten.

Schleife durch jede Seite für zeilenweise Textextraktion

for i in range(0, pdfFileObj.get_Pages().Count):
for i in range(0, pdfFileObj.get_Pages().Count):
PYTHON

Der obige Code durchläuft jede Seite in der PDF-Datei mit IronPDFs get_Pages().Count, um die Gesamtzahl der Seiten zu ermitteln.

Text extrahieren und in Zeilen unterteilen

page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')
page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')
PYTHON

Für jede Seite wird die Methode ExtractTextFromPage verwendet, um den gesamten Text zu erhalten und ihn dann mit der Python-Methode split in Zeilen zu zerlegen. Das Ergebnis ist eine Liste von Zeilen, die in einer Schleife durchlaufen werden kann.

Die extrahierten Zeilen in eine Textdatei schreiben

for eachline in lines:
    print(eachline)
    text_file.write(eachline + '\n')
for eachline in lines:
    print(eachline)
    text_file.write(eachline + '\n')
PYTHON

Hier durchläuft der Code jede Zeile in der Zeilenliste, gibt sie auf der Konsole aus und schreibt sie in die Datei, indem er nach jeder Zeile ein Zeilenumbruchzeichen (\n) hinzufügt, um den Text richtig zu formatieren.

Kompletter Code

Hier ist die umfassende Implementierung:

from ironpdf import PdfDocument

# Apply your license key
License.LicenseKey = "Your-License-Key-Here"

# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")

# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()

# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)

# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
    # Get the number of pages in the PDF document
    num_of_pages = pdfFileObj.get_Pages().Count
    print("Number of pages in given document are ", num_of_pages)

    # Loop through each page using the Count property
    for i in range(0, num_of_pages):
        # Extract text from the current page
        page_text = pdfFileObj.ExtractTextFromPage(i)

        # Split the text by lines from this page object
        lines = page_text.split('\n')

        # Loop through the lines and print/write them
        for eachline in lines:
            print(eachline)  # Print each line to the console
            # Write each line to the text document
            text_file.write(eachline + '\n')
from ironpdf import PdfDocument

# Apply your license key
License.LicenseKey = "Your-License-Key-Here"

# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")

# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()

# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)

# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
    # Get the number of pages in the PDF document
    num_of_pages = pdfFileObj.get_Pages().Count
    print("Number of pages in given document are ", num_of_pages)

    # Loop through each page using the Count property
    for i in range(0, num_of_pages):
        # Extract text from the current page
        page_text = pdfFileObj.ExtractTextFromPage(i)

        # Split the text by lines from this page object
        lines = page_text.split('\n')

        # Loop through the lines and print/write them
        for eachline in lines:
            print(eachline)  # Print each line to the console
            # Write each line to the text document
            text_file.write(eachline + '\n')
PYTHON

Ausgabe

Führen Sie die Python-Datei aus, indem Sie den folgenden Befehl in das Terminal von Visual Studio Code eingeben:

python main.py
python main.py
SHELL

Das Ergebnis wird auf dem Terminal zu sehen sein:

Wie man Text zeilenweise aus PDF extrahiert, Abbildung 3: Der extrahierte Text Der extrahierte Text

Es handelt sich um den abgerufenen Text aus der PDF-Datei. Sie werden auch ein Textdokument in Ihrem Verzeichnis finden.

Wie man Text zeilenweise aus PDF extrahiert, Abbildung 4: Der extrahierte Text wird in einer TXT-Datei gespeichert Der extrahierte Text wird in einer TXT-Datei gespeichert

In dieser Textdatei finden Sie das Textformat, das abgerufen wurde, nacheinander dargestellt.

Wie man Text zeilenweise aus PDF-Dateien extrahiert, Abbildung 5: Der Inhalt der extrahierten Textdatei Der Inhalt der extrahierten Textdatei

Abschluss

Zusammenfassend lässt sich sagen, dass die Verwendung von IronPDF und Python zur Extraktion von Text aus PDF-Dateien ein robuster und unkomplizierter Ansatz ist, unabhängig davon, ob der Text aus dem gesamten Dokument, aus bestimmten Seiten oder sogar zeilenweise ausgelesen wird. Der zusätzliche Vorteil, den abgerufenen Text in einer Textdatei zu speichern, ermöglicht es Ihnen, die Daten effizient zu verwalten und für die weitere Verarbeitung zu nutzen. IronPDF erweist sich als ein unschätzbares Werkzeug für die Bearbeitung von PDF-Dateien und bietet eine Reihe von Funktionen, die über die reine Textextraktion hinausgehen. Sie können auch PDF in Python in Text konvertieren mit IronPDF.

Additionally, creating interactive PDFs, completing and submitting interactive forms, merging and dividing PDF files, extracting text and images, searching text within PDF files, rasterizing PDFs to images, changing font size, border and background color, and converting PDF files are all tasks that the IronPDF toolkit can help with.

IronPDF ist keine Open-Source-Python-Bibliothek. Wenn Sie IronPDF für Ihre Projekte verwenden möchten, beginnt die Lizenz für das Paket bei $799. Wenn Sie sich jedoch über die Investition im Klaren sein wollen, bietet IronPDF eine kostenlose Testversion an, um die Funktionen gründlich zu erkunden.

Wie man Text zeilenweise aus PDF-Dateien extrahiert, Abbildung 6: Die Lizenzierungsseite

Häufig gestellte Fragen

Wie kann ich Text aus einem PDF mit Python extrahieren?

Sie können IronPDF verwenden, um Text aus PDF-Dateien in Python zu extrahieren. Dies erfolgt durch Laden des PDFs mit der Methode PdfDocument.FromFile und das Iterieren durch die Seiten, um Text Zeile für Zeile zu extrahieren.

Was wird benötigt, um mit der Textextraktion aus PDFs in Python zu beginnen?

Um Text aus PDFs in Python zu extrahieren, müssen Sie Python installiert haben, zusammen mit der IronPDF-Bibliothek, die über pip installiert werden kann. Eine IDE wie Visual Studio Code wird zum Schreiben und Ausführen Ihrer Skripte empfohlen.

Kann IronPDF Text von einer bestimmten Seite in einem PDF extrahieren?

Ja, IronPDF ermöglicht es Ihnen, Text von einer bestimmten Seite eines PDFs mit der Methode ExtractTextFromPage zu extrahieren, indem Sie den Seitenindex angeben.

Wie kann ich extrahierten Text in einer Datei in Python speichern?

Nach der Textextraktion mit IronPDF können Sie diesen in einer Datei speichern, indem Sie die extrahierten Textzeilen mit den Dateihandhabungsmethoden von Python in eine Textdatei schreiben.

Welche zusätzlichen Funktionen bietet IronPDF neben der Textextraktion?

IronPDF bietet eine breite Palette von Funktionen, einschließlich Erstellen, Bearbeiten und Konvertieren von PDFs, Zusammenführen und Trennen von PDF-Dokumenten, Extrahieren von Bildern und Konvertieren von PDFs in andere Dateiformate.

Wie kann ich IronPDF in meinem Python-Projekt lizenzieren?

Um IronPDF zu lizenzieren, setzen Sie Ihren Lizenzschlüssel im Python-Skript mit der Eigenschaft License.LicenseKey, wodurch die volle Funktionalität der Bibliothek freigeschaltet wird.

Ist es möglich, IronPDF vor dem Kauf zu testen?

Ja, IronPDF bietet eine Testversion, mit der Sie die Funktionen vor dem Kauf einer Vollversion bewerten können.

Was sollte ich tun, wenn ich auf Probleme bei der Textextraktion aus PDFs stoße?

Stellen Sie sicher, dass IronPDF ordnungsgemäß installiert und lizenziert ist und Ihre Python-Umgebung korrekt eingerichtet ist. Konsultieren Sie die Dokumentation oder Support-Ressourcen, um häufig auftretende Probleme zu beheben.

Kann ich ein PDF mit IronPDF in ein Bild umwandeln?

Ja, IronPDF bietet die Möglichkeit, PDFs in Bilder zu rasterisieren, sodass Sie ganze Dokumente oder bestimmte Seiten in Bilddateien konvertieren können.

Wie führe ich ein Python-Skript zur Textextraktion aus einem PDF aus?

Nachdem Sie Ihr Skript geschrieben haben, können Sie es ausführen, indem Sie im Terminal Ihrer IDE python main.py ausführen, wobei main.py der Name Ihrer Skriptdatei ist.

Curtis Chau
Technischer Autor

Curtis Chau hat einen Bachelor-Abschluss in Informatik von der Carleton University und ist spezialisiert auf Frontend-Entwicklung mit Expertise in Node.js, TypeScript, JavaScript und React. Leidenschaftlich widmet er sich der Erstellung intuitiver und ästhetisch ansprechender Benutzerschnittstellen und arbeitet gerne mit modernen Frameworks sowie der Erstellung gut strukturierter, optisch ansprechender ...

Weiterlesen