Zum Fußzeileninhalt springen
VERWENDUNG VON IRONPDF FüR PYTHON

Wie man mit Python PDF zu Text konvertiert (Tutorial)

Dieser Artikel zeigt, wie Sie IronPDF for Python, eine der leistungsstärksten PDF-Bibliotheken, verwenden, um beliebigen Text aus einem PDF-Dokument zu extrahieren.

class="hsg-featured-snippet">

Wie man PDF in Text in Python umwandelt

  1. Installieren Sie eine Python-Bibliothek, um PDF in Text zu konvertieren
  2. Laden Sie ein bestehendes PDF-Dokument oder rendern Sie ein neues
  3. Verwenden Sie die Methode ExtractAllText, um Text aus der geöffneten Datei zu lesen
  4. Nutzen Sie eine andere Überladung der Methode, um Text aus bestimmten Seiten zu lesen.
  5. Drucken Sie den extrahierten Text in die Konsole oder speichern Sie ihn in einer Textdatei

2.0 Wie man Text aus einem PDF mit Python extrahiert?

  1. Installieren Sie die neueste Version von Python von der Python-Download-Seite
  2. Öffnen Sie beliebige IDE-Tools für Python
  3. Installieren Sie .NET Core Runtime
  4. Installieren Sie die IronPDF for Python Bibliothek oder laden Sie sie von der PyPI-Download-Seite herunter
  5. Extrahieren Sie Text aus dem PDF

2.1 Was ist IronPDF für Python?

Es ist einfach, die IronPDF-Bibliothek in Python zu integrieren, da es sich um eine dynamischere Sprache handelt als andere und Entwicklern ermöglicht, grafische Benutzeroberflächen schnell und einfach zu erstellen. Es enthält eine Fülle von vorinstallierten Tools, darunter PyQT, wxWidgets, kivy und zahlreiche zusätzliche Pakete und Bibliotheken, die alle verwendet werden können, um eine vollständig vollständige GUI schnell und sicher zu erstellen.

IronPDF for Python ist eine äußerst effiziente Bibliothek, die besonders für die Webentwicklung nützlich ist. Die Verfügbarkeit so vieler Python-Webentwicklung-Pradigmen, wie Django, Flask und Pyramid, ist teilweise dafür verantwortlich. Diese Frameworks wurden von zahlreichen Websites und Online-Diensten verwendet, einschließlich Reddit, Mozilla und Spotify.

2.2 Funktionen von IronPDF

  • Eine PDF-Datei kann aus verschiedenen Quellen erstellt werden, einschließlich HTML, HTML5, ASP und PHP-Websites. Neben HTML-Dateien ist es auch möglich, Bilddateien in PDF zu konvertieren.
  • IronPDF allows you to build interactive PDF documents, fill out and send interactive forms, split and combine PDF files, extract text and images from PDF files, search for certain words within a PDF file, rasterize PDF pages to images, convert PDF to HTML, and print PDF files.
  • IronPDF kann PDF-Dateien öffnen und von einer URL drucken. Darüber hinaus ermöglicht es Benutzeragenten, sich hinter HTML-Login-Formularen, Proxys, Cookies, HTTP-Headern, benutzerdefinierten Netzwerk-Anmeldedaten, Formularvariablen und Benutzeragenten anzumelden.
  • Bilder können aus Dokumenten mit IronPDF extrahiert werden.
  • With IronPDF, it is very easy to add headers and footers, text and pictures, bookmarks and watermarks, and more to documents.
  • Es ist möglich, Seiten mit einem neuen oder bestehenden Dokument mit IronPDF zu kombinieren und zu trennen.
  • Ohne einen Acrobat-Viewer zu verwenden, können Dokumente in PDF-Objekte umgewandelt werden.
  • Eine CSS-Datei kann verwendet werden, um ein PDF-Dokument zu erstellen.
  • Die Erstellung von Dokumenten ist mit medienbezogenen CSS-Dateien möglich.

2.3 IronPDF-Bibliothek importieren

Schließen Sie die folgenden Import-Anweisungen am Anfang der Quelldateien ein, in denen IronPDF verwendet werden soll, um IronPDF zu importieren:

from ironpdf import *
from ironpdf import *
PYTHON

2.4 Lizenzschlüssel einrichten (falls erforderlich)

Obwohl IronPDF for Python kostenlos nutzbar ist, versieht es PDF-Dateien für kostenlose Nutzer mit einem gekachelten Hintergrund. Sie müssen der Bibliothek einen gültigen Lizenzschlüssel geben, um IronPDF zur Erstellung von PDFs ohne Wasserzeichen nutzen zu können. Wie die Bibliothek mit einem Lizenzschlüssel eingerichtet wird, wird im folgenden Codeschnipsel gezeigt:

# Set the license key for IronPDF
License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"
# Set the license key for IronPDF
License.LicenseKey = "IRONPDF-LICENSE-KEY-ABCDEFGH"
PYTHON

Bevor Sie PDF-Dateien erstellen oder Inhalte ändern, stellen Sie sicher, dass der Lizenzschlüssel konfiguriert ist. Die Methode LicenseKey sollte vor allen anderen Codezeilen aufgerufen werden. To get a free trial license key, visit the licensing page.

2.5 Protokolldateien einrichten

Eine Textdatei mit dem Namen "Default" kann Protokollnachrichten speichern, die von Custom.log innerhalb des Verzeichnisses des Python-Skripts erzeugt werden. Der folgende Codeschnipsel kann verwendet werden, um die Eigenschaft LogFilePath festzulegen und den Namen und den Speicherort der Protokolldatei anzupassen:

# Enable debugging and set the log file path and mode
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
# Enable debugging and set the log file path and mode
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

3.0 PDF-Text mit IronPDF extrahieren

Die IronPDF for Python Bibliothek kann PDF-Seiten in PDF-Objekte umwandeln und ermöglicht die Textextraktion aus PDF-Dateien, einschließlich gescannter PDF-Dateien. Hier ist ein Beispiel, das zeigt, wie man ein vorhandenes PDF mit IronPDF liest.

Die erste Methode beinhaltet das Extrahieren aller im PDF verfügbaren Texte; ein Beispielcode wird unten bereitgestellt.

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract all the text from the entire PDF document
all_text = pdf.ExtractAllText()

# Display the extracted text
print(all_text)
from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract all the text from the entire PDF document
all_text = pdf.ExtractAllText()

# Display the extracted text
print(all_text)
PYTHON

Wie in dem obigen Code veranschaulicht, ist die Methode FromFile ein PDF-Reader-Objekt, das die vorhandene PDF-Datei lädt und in PDF-Dokument-Objekte umwandelt. Dieses Objekt kann verwendet werden, um den Text und die Bilder zu lesen, die auf den PDF-Seiten verfügbar sind. Das Objekt bietet eine Methode namens ExtractAllText, die jedes Textstück aus der gesamten PDF-Datei zieht und den Text in einer Zeichenkette hält, die verarbeitet werden kann. Und dann verwenden Sie die Funktion print, um den Text anzuzeigen.

Wie man PDF in Text in Python konvertiert (Tutorial), Abbildung 1: Text anzeigen Text anzeigen

Das Code-Beispiel für die zweite Methode, die seitenweise verwendet werden kann, um Text aus einer PDF-Datei zu extrahieren. Es wird unten bereitgestellt.

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from a specific page in the document
page_text = pdf.ExtractTextFromPage(1)

# Display the extracted text from the specified page
print(page_text)
from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from a specific page in the document
page_text = pdf.ExtractTextFromPage(1)

# Display the extracted text from the specified page
print(page_text)
PYTHON

Die Methode FromFile wird verwendet, um die PDF-Datei aus einer vorhandenen Datei zu laden und sie in ein PDF-Dateiobjekt umzuwandeln, wie im obigen Code gezeigt. Eine Methode am PDF-Seitenobjekt namens ExtractTextFromPage ruft alle Texte von einer Seite in einer PDF-Datei ab. Die Seitenzahl muss als Parameter angegeben werden, um Text aus dieser Seite zu extrahieren. Dann kann page_text verwendet werden, um die Information zu halten, die verarbeitet werden kann, nachdem der Text extrahiert wurde.

Weitere Beispiele zum Extrahieren von Text aus einem PDF finden Sie hier.

4.0 Fazit

Die IronPDF-Bibliothek bietet im Gegensatz dazu starke Sicherheitsmaßnahmen zur Verringerung potenzieller Risiken. Es ist nicht auf einen bestimmten Browser zugeschnitten und funktioniert mit allen gängigen. IronPDF ermöglicht es Programmierern, mit nur wenigen Zeilen Code PDF-Dateien einfach zu erstellen und zu lesen. Die IronPDF-Bibliothek bietet eine Reihe von Lizenzierungsoptionen an, einschließlich einer kostenlosen Entwicklerlizenz und zusätzlichen Entwicklungs-Lizenzen, die erworben werden können, um die Bedürfnissen verschiedener Entwickler zu erfüllen.

IronPDF umfasst eine unbefristete Lizenz, eine 30-tägige Geld-zurück-Garantie, ein Jahr Software-Support und Upgrade-Optionen. Es fallen keine zusätzlichen Kosten nach dem Erstkauf an. Diese Lizenzen können in Entwicklungs-, Staging- und Produktionsumgebungen eingesetzt werden. Erfahren Sie mehr über die Produktlizenzierung.

Laden Sie das Softwareprodukt herunter.

Häufig gestellte Fragen

Wie kann ich ein PDF in Text in Python konvertieren?

Sie können ein PDF in Text in Python konvertieren, indem Sie IronPDF's PdfDocument.FromFile-Methode verwenden, um Ihr PDF zu laden, und dann die Methoden ExtractAllText oder ExtractTextFromPage verwenden, um den benötigten Text zu extrahieren.

Welche Einrichtung braucht man für eine PDF-Bibliothek in Python?

Um IronPDF zu verwenden, müssen Sie Python und eine IDE installieren, zusammen mit dem .NET Core-Laufzeit. IronPDF kann über die PyPI-Downloadseite installiert werden.

Kann ich Text von einer bestimmten Seite in einem PDF mit Python extrahieren?

Ja, mit IronPDF können Sie die Methode ExtractTextFromPage verwenden, um Text von einer bestimmten Seite zu extrahieren, indem Sie die Seitennummer als Parameter angeben.

Gibt es kostenlose Optionen zur Verwendung einer PDF-Bibliothek in Python?

IronPDF for Python bietet eine kostenlose Version, die Wasserzeichen zu PDFs hinzufügt. Um Wasserzeichen zu entfernen und alle Funktionen freizuschalten, benötigen Sie einen Lizenzschlüssel.

Wie integriere ich eine PDF-Bibliothek mit Web-Frameworks wie Django oder Flask?

IronPDF integriert sich nahtlos mit Web-Frameworks wie Django und Flask, sodass Sie PDFs innerhalb Ihrer Webanwendungsprojekte erstellen und manipulieren können.

Welche Funktionen sollte ich in einer Python PDF-Bibliothek suchen?

Eine umfassende PDF-Bibliothek wie IronPDF sollte das Erstellen von PDFs aus HTML und Bildern, das Extrahieren von Text, das Ausfüllen von Formularen, das Zusammenführen von PDFs und das Hinzufügen von Lesezeichen und Wasserzeichen unterstützen.

Wie setze ich einen Lizenzschlüssel für eine PDF-Bibliothek in Python?

Für IronPDF setzen Sie den Lizenzschlüssel mit der Methode License.LicenseKey, bevor Sie irgendeinen anderen Code ausführen, um Ihre Lizenz zu registrieren und Wasserzeichen zu entfernen.

Unterstützt die Python PDF-Bibliothek die Erstellung von PDF-Dokumenten aus Webseiten?

IronPDF kann PDFs aus HTML, HTML5 und Webseiten, die mit ASP oder PHP erstellt wurden, erzeugen, was es zu einem vielseitigen Werkzeug für webbasierte PDF-Erstellung macht.

Wie kann ich Debugging in einer PDF-Bibliothek für Python aktivieren?

Aktivieren Sie das Debugging in IronPDF, indem Sie Logger.EnableDebugging auf true setzen und einen Protokolldateipfad mit Logger.LogFilePath definieren.

Welche Sicherheitsfunktionen hat eine Python PDF-Bibliothek?

IronPDF gewährleistet Sicherheit und Kompatibilität mit verschiedenen Browsern und bietet eine zuverlässige Lösung für Entwickler, die eine sichere PDF-Manipulation in Python suchen.

Curtis Chau
Technischer Autor

Curtis Chau hat einen Bachelor-Abschluss in Informatik von der Carleton University und ist spezialisiert auf Frontend-Entwicklung mit Expertise in Node.js, TypeScript, JavaScript und React. Leidenschaftlich widmet er sich der Erstellung intuitiver und ästhetisch ansprechender Benutzerschnittstellen und arbeitet gerne mit modernen Frameworks sowie der Erstellung gut strukturierter, optisch ansprechender ...

Weiterlesen