Zum Fußzeileninhalt springen
VERWENDUNG VON IRONPDF FüR PYTHON

Wie man Text aus einem PDF Zeile für Zeile extrahiert

Dieser Leitfaden zeigt die Feinheiten der Verwendung von IronPDF zum sequenziellen Extrahieren von Text aus PDF-Dokumenten in Python. Es wird alles abdecken, von der Einrichtung Ihrer Python-Umgebung bis zur Ausführung Ihres ersten Python-Programms zur PDF-Textextraktion.

Wie man Text Zeile für Zeile aus einer PDF-Datei extrahiert

  1. Laden Sie die PDF-Bibliothek herunter und installieren Sie sie. Verwenden Sie Python, um Text aus der PDF-Dateizeile zu extrahieren.
  2. Erstellen Sie ein Python-Projekt in Ihrer bevorzugten IDE.
  3. Laden Sie die gewünschte PDF-Datei, um den Textinhalt abzurufen.
  4. Durchlaufen Sie die PDF-Datei und extrahieren Sie den Text sequenziell mithilfe der Funktion der integrierten Bibliothek.
  5. Speichern Sie den extrahierten Text in einer Datei.

IronPDF PDF Python-Bibliothek

IronPDF ist ein praktisches Tool, mit dem man in Python mit PDF-Dateien arbeiten kann. Betrachten Sie es als hilfreichen Assistenten, der das Lesen, Erstellen und Bearbeiten von PDF-Dateien erleichtert. Egal ob Sie Inhalte aus einem PDF-Dokument extrahieren, neue Informationen hinzufügen oder eine Webseite in das PDF-Format umwandeln möchten, IronPDF bietet umfassende Lösungen. Es handelt sich um ein kostenpflichtiges Softwarepaket, aber es wird eine Testversion angeboten, die Sie vor dem Kauf ausprobieren können.

Bevor Sie sich mit dem Skript befassen, ist die Einrichtung Ihrer Python-Umgebung unerlässlich. Diese Schritt-für-Schritt-Anleitung hilft Ihnen dabei, Ihre Umgebung zu konfigurieren, ein neues Python-Projekt in Visual Studio Code zu erstellen und die Umgebungskonfiguration der IronPDF-Bibliothek einzurichten.

Python herunterladen und installieren : Falls Sie Python noch nicht installiert haben, laden Sie die neueste Version von der offiziellen Python-Website herunter. Befolgen Sie die Installationsanweisungen für Ihr spezifisches Betriebssystem.

Überprüfen Sie die Python-Installation : Öffnen Sie Ihr Terminal oder Ihre Eingabeaufforderung und geben Sie python --version ein. Dieser Befehl sollte die installierte Python-Version ausgeben und damit bestätigen, dass die Installation erfolgreich war.

Update pip : Pip ist der Python-Paketinstaller. Stellen Sie sicher, dass es auf dem neuesten Stand ist, indem Sie pip install --upgrade pip ausführen.

Erstellen eines neuen Python-Projekts in Visual Studio Code

Visual Studio Code herunterladen : Falls Sie es noch nicht haben, laden Sie es von der offiziellen Website herunter.

Installieren Sie die Python-Erweiterung : Öffnen Sie Visual Studio Code und gehen Sie zum Extensions Marketplace. Suchen Sie nach der Python-Erweiterung von Microsoft und installieren Sie sie.

Neuen Ordner erstellen : Erstellen Sie einen neuen Ordner, in dem Sie Ihr Python-Projekt speichern möchten. Geben Sie ihm einen aussagekräftigen Namen, zum Beispiel PDF_Text_Extractor .

Öffnen Sie den Ordner in VS Code : Ziehen Sie den Ordner in Visual Studio Code oder verwenden Sie die Menüoption Datei > Ordner öffnen , um den Ordner zu öffnen.

Erstellen einer Python-Datei : Klicken Sie mit der rechten Maustaste im VS Code Explorer-Fenster und wählen Sie "Neue Datei" . Benennen Sie die Datei main.py oder ähnlich. Diese Datei enthält Ihr Python-Programm.

Wie man Text zeilenweise aus einer PDF-Datei extrahiert, Abbildung 1: Erstellen einer neuen Python-Datei in Visual Studio Code Erstellen Sie eine neue Python-Datei in Visual Studio Code.

IronPDF-Bibliotheksanforderungen und -einrichtung

IronPDF ist unerlässlich, um Textinhalte aus PDFs zu extrahieren. So installieren Sie es:

Terminal in VS Code öffnen : Sie können ein Terminal in VS Code öffnen, indem Sie auf Terminal > Neues Terminal gehen.

IronPDF installieren : Führen Sie im Terminal folgenden Befehl aus, um die neueste Version von IronPDF zu installieren:

pip install ironpdf

Dieser Prozess ruft die IronPDF-Bibliothek sowie alle erforderlichen Module ab und installiert sie.

Wie man Text zeilenweise aus einer PDF-Datei extrahiert, Abbildung 2: Installation des IronPDF-Pakets IronPDF-Paket installieren

Und da haben Sie es! Sie haben nun erfolgreich Ihre Python-Umgebung eingerichtet, ein neues Projekt in Visual Studio Code erstellt und die IronPDF-Bibliothek installiert.

Text aus PDF Zeile für Zeile extrahieren

Anwenden des Lizenzschlüssels

Bevor Sie fortfahren, stellen Sie sicher, dass Sie Ihren IronPDF-Lizenzschlüssel anwenden.

from ironpdf import PdfDocument

# Apply your license key to unlock library features
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
from ironpdf import PdfDocument

# Apply your license key to unlock library features
License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
PYTHON

Ersetzen Sie YOUR-LICENSE-KEY-HERE durch Ihren tatsächlichen IronPDF-Lizenzschlüssel. Mit dieser Lizenz können Sie alle Bibliotheksfunktionen für Ihr Projekt freischalten.

Laden des PDF-Dateiformats

Sie müssen eine bestehende PDF-Datei in Ihr Python-Programm laden. Dies lässt sich mit der Methode PdfDocument.FromFile aus IronPDF erreichen.

pdfFileObj = PdfDocument.FromFile("content.pdf")
pdfFileObj = PdfDocument.FromFile("content.pdf")
PYTHON

"content.pdf" bezieht sich auf die PDF-Datei, die Sie lesen möchten. Die geladene PDF-Datei wird in der Variable pdfFileObj gespeichert und kann als PDF-Reader oder PDF-Dateiobjekt pdfFileObj verwendet werden.

Text aus dem gesamten PDF-Dokument extrahieren

Wenn Sie alle Textdaten aus der PDF-Datei auf einmal extrahieren möchten, können Sie die Methode ExtractAllText verwenden.

all_text = pdfFileObj.ExtractAllText()
all_text = pdfFileObj.ExtractAllText()
PYTHON

Die ExtractAllText Methode wird hier zu Demonstrationszwecken verwendet. Diese Methode extrahiert den gesamten Text aus der PDF-Datei und speichert ihn in einer Variablen namens all_text .

Text aus einer bestimmten PDF-Seite extrahieren

IronPDF ermöglicht die Textextraktion von einer bestimmten Seite mithilfe der Methode ExtractTextFromPage . Diese Methode ist nützlich, wenn Sie nur Text von einigen Seiten benötigen.

page_2_text = pdfFileObj.ExtractTextFromPage(1)
page_2_text = pdfFileObj.ExtractTextFromPage(1)
PYTHON

Hier extrahieren wir Text von der zweiten Seite, entsprechend dem Index 1.

Initialisieren einer Textdatei zum Schreiben des extrahierten Textes

with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
PYTHON

Öffnen Sie eine Datei namens "extracted_text.txt", um die Textdaten zu speichern. Hierfür wird die in Python integrierte open Funktion verwendet, wobei der Dateimodus auf "write" ( "w" ) und encoding='utf-8' gesetzt wird, um Unicode-Zeichen verarbeiten zu können.

Jede Seite durchlaufen, um den Text zeilenweise zu extrahieren

for i in range(0, pdfFileObj.get_Pages().Count):
for i in range(0, pdfFileObj.get_Pages().Count):
PYTHON

Der obige Code durchläuft jede Seite der PDF-Datei und verwendet dabei die get_Pages().Count von IronPDF, um die Gesamtseitenzahl zu ermitteln.

Text extrahieren und in Zeilen unterteilen

page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')
page_text = pdf.ExtractTextFromPage(i)
lines = page_text.split('\n')
PYTHON

Für jede Seite wird die Methode ExtractTextFromPage verwendet, um den gesamten Text zu erhalten, und anschließend wird mit der Methode split von Python der Text in Zeilen aufgeteilt. Das Ergebnis ist eine Liste von Zeilen, die durchlaufen werden können.

Extrahierte Zeilen in Textdatei schreiben

for eachline in lines:
    print(eachline)
    text_file.write(eachline + '\n')
for eachline in lines:
    print(eachline)
    text_file.write(eachline + '\n')
PYTHON

Hier durchläuft der Code jede Zeile in der Liste der Zeilen, gibt sie auf der Konsole aus und schreibt sie in die Datei, indem er nach jeder Zeile ein Zeilenumbruchzeichen ( \n ) hinzufügt, um diesen Text richtig zu formatieren.

Vollständiger Code

Hier die vollständige Implementierung:

from ironpdf import PdfDocument

# Apply your license key
License.LicenseKey = "Your-License-Key-Here"

# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")

# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()

# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)

# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
    # Get the number of pages in the PDF document
    num_of_pages = pdfFileObj.get_Pages().Count
    print("Number of pages in given document are ", num_of_pages)

    # Loop through each page using the Count property
    for i in range(0, num_of_pages):
        # Extract text from the current page
        page_text = pdfFileObj.ExtractTextFromPage(i)

        # Split the text by lines from this page object
        lines = page_text.split('\n')

        # Loop through the lines and print/write them
        for eachline in lines:
            print(eachline)  # Print each line to the console
            # Write each line to the text document
            text_file.write(eachline + '\n')
from ironpdf import PdfDocument

# Apply your license key
License.LicenseKey = "Your-License-Key-Here"

# Load an existing PDF file
pdfFileObj = PdfDocument.FromFile("content.pdf")

# Extract text from the entire PDF file
all_text = pdfFileObj.ExtractAllText()

# Extract text from a specific page in the file (Page 2)
page_2_text = pdfFileObj.ExtractTextFromPage(1)

# Initialize a file object for writing the extracted text
with open("extracted_text.txt", "w", encoding='utf-8') as text_file:
    # Get the number of pages in the PDF document
    num_of_pages = pdfFileObj.get_Pages().Count
    print("Number of pages in given document are ", num_of_pages)

    # Loop through each page using the Count property
    for i in range(0, num_of_pages):
        # Extract text from the current page
        page_text = pdfFileObj.ExtractTextFromPage(i)

        # Split the text by lines from this page object
        lines = page_text.split('\n')

        # Loop through the lines and print/write them
        for eachline in lines:
            print(eachline)  # Print each line to the console
            # Write each line to the text document
            text_file.write(eachline + '\n')
PYTHON

Ausgabe

Führen Sie die Python-Datei aus, indem Sie folgenden Befehl im Terminal von Visual Studio Code eingeben:

python main.py
python main.py
SHELL

Dieses Ergebnis wird auf dem Terminal angezeigt:

Wie man Text zeilenweise aus einer PDF-Datei extrahiert, Abbildung 3: Der extrahierte Text Der extrahierte Text

Es handelt sich um den aus der PDF-Datei extrahierten Text. Außerdem wird in Ihrem Verzeichnis ein Textdokument erstellt.

Wie man Text zeilenweise aus einer PDF-Datei extrahiert, Abbildung 4: Der extrahierte Text wird in einer TXT-Datei gespeichert Der extrahierte Text wurde in einer TXT-Datei gespeichert.

In dieser Textdatei finden Sie das abgerufene Textformat in sequenzieller Reihenfolge.

Wie man Text zeilenweise aus einer PDF-Datei extrahiert, Abbildung 5: Der extrahierte Textdateiinhalt Der extrahierte Textdateiinhalt

Abschluss

Zusammenfassend lässt sich sagen, dass die Verwendung von IronPDF und Python zum Extrahieren von Text aus PDF-Dateien eine robuste und unkomplizierte Methode darstellt, egal ob Text aus dem gesamten Dokument, bestimmten Seiten oder sogar zeilenweise extrahiert werden soll. Der zusätzliche Vorteil, den extrahierten Text in einer Textdatei zu speichern, ermöglicht die effiziente Verwaltung und Nutzung der Daten für die weitere Verarbeitung. IronPDF erweist sich als unschätzbares Werkzeug für die Bearbeitung von PDFs und bietet eine Reihe von Funktionen, die weit über die reine Textextraktion hinausgehen. Sie können PDF auch in Python mit IronPDF in Text konvertieren .

Darüber hinaus kann das IronPDF-Toolkit bei folgenden Aufgaben helfen: Erstellen interaktiver PDFs, Ausfüllen und Absenden interaktiver Formulare , Zusammenführen und Aufteilen von PDF-Dateien, Extrahieren von Text und Bildern , Suchen von Text in PDF-Dateien, Rastern von PDFs in Bilder , Ändern der Schriftgröße, der Rahmen- und Hintergrundfarbe sowie Konvertieren von PDF-Dateien.

IronPDF ist keine Open-Source-Python-Bibliothek. Wenn Sie die Verwendung von IronPDF für Ihre Projekte in Erwägung ziehen, beginnt die Lizenz für das Paket bei $799 . Sollten Sie jedoch noch Fragen zur Investition haben, bietet IronPDF eine kostenlose Testversion an, um die Funktionen gründlich kennenzulernen.

Wie man Text zeilenweise aus einer PDF-Datei extrahiert, Abbildung 6: Die Lizenzseite

Häufig gestellte Fragen

Wie kann ich Text aus einem PDF mit Python extrahieren?

Sie können IronPDF verwenden, um Text aus PDF-Dateien in Python zu extrahieren. Dies erfolgt durch Laden des PDFs mit der Methode PdfDocument.FromFile und das Iterieren durch die Seiten, um Text Zeile für Zeile zu extrahieren.

Was wird benötigt, um mit der Textextraktion aus PDFs in Python zu beginnen?

Um Text aus PDFs in Python zu extrahieren, müssen Sie Python installiert haben, zusammen mit der IronPDF-Bibliothek, die über pip installiert werden kann. Eine IDE wie Visual Studio Code wird zum Schreiben und Ausführen Ihrer Skripte empfohlen.

Kann IronPDF Text von einer bestimmten Seite in einem PDF extrahieren?

Ja, IronPDF ermöglicht es Ihnen, Text von einer bestimmten Seite eines PDFs mit der Methode ExtractTextFromPage zu extrahieren, indem Sie den Seitenindex angeben.

Wie kann ich extrahierten Text in einer Datei in Python speichern?

Nach der Textextraktion mit IronPDF können Sie diesen in einer Datei speichern, indem Sie die extrahierten Textzeilen mit den Dateihandhabungsmethoden von Python in eine Textdatei schreiben.

Welche zusätzlichen Funktionen bietet IronPDF neben der Textextraktion?

IronPDF bietet eine breite Palette von Funktionen, einschließlich Erstellen, Bearbeiten und Konvertieren von PDFs, Zusammenführen und Trennen von PDF-Dokumenten, Extrahieren von Bildern und Konvertieren von PDFs in andere Dateiformate.

Wie kann ich IronPDF in meinem Python-Projekt lizenzieren?

Um IronPDF zu lizenzieren, setzen Sie Ihren Lizenzschlüssel im Python-Skript mit der Eigenschaft License.LicenseKey, wodurch die volle Funktionalität der Bibliothek freigeschaltet wird.

Ist es möglich, IronPDF vor dem Kauf zu testen?

Ja, IronPDF bietet eine Testversion, mit der Sie die Funktionen vor dem Kauf einer Vollversion bewerten können.

Was sollte ich tun, wenn ich auf Probleme bei der Textextraktion aus PDFs stoße?

Stellen Sie sicher, dass IronPDF ordnungsgemäß installiert und lizenziert ist und Ihre Python-Umgebung korrekt eingerichtet ist. Konsultieren Sie die Dokumentation oder Support-Ressourcen, um häufig auftretende Probleme zu beheben.

Kann ich ein PDF mit IronPDF in ein Bild umwandeln?

Ja, IronPDF bietet die Möglichkeit, PDFs in Bilder zu rasterisieren, sodass Sie ganze Dokumente oder bestimmte Seiten in Bilddateien konvertieren können.

Wie führe ich ein Python-Skript zur Textextraktion aus einem PDF aus?

Nachdem Sie Ihr Skript geschrieben haben, können Sie es ausführen, indem Sie im Terminal Ihrer IDE python main.py ausführen, wobei main.py der Name Ihrer Skriptdatei ist.

Curtis Chau
Technischer Autor

Curtis Chau hat einen Bachelor-Abschluss in Informatik von der Carleton University und ist spezialisiert auf Frontend-Entwicklung mit Expertise in Node.js, TypeScript, JavaScript und React. Leidenschaftlich widmet er sich der Erstellung intuitiver und ästhetisch ansprechender Benutzerschnittstellen und arbeitet gerne mit modernen Frameworks sowie der Erstellung gut strukturierter, optisch ansprechender ...

Weiterlesen