VERWENDUNG VON IRONPDF FOR PYTHON

Konvertieren von PDF in Text in Python (Tutorial)

Veröffentlicht 30. Juni 2023
Teilen Sie:

1.0 Was ist eine PDF-Datei?

Wenn es um die gemeinsame Nutzung von Dokumenten geht, ist das von Adobe geschaffene Portable Document Format (PDF) ist entscheidend für die Wahrung der Integrität von textreichen und ästhetisch schönen Inhalten. In den meisten Fällen ist ein spezielles Programm erforderlich, um auf Online-PDF-Dateien zugreifen zu können. Heutzutage erfordern viele wichtige digitale Veröffentlichungen PDF-Dateien. Viele Unternehmen verwenden PDF-Dateien, um Fachdokumente und Rechnungen zu erstellen. IronPDF for Python ist eine der leistungsfähigsten PDF-Bibliotheken, die es Ihnen ermöglicht, jeden in einem PDF-Dokument vorhandenen Text zu extrahieren.

2.0 Wie kann man mit Python Text aus einer PDF-Datei extrahieren?

  1. Installieren Sie die neueste Version von Python hier

  2. Öffnen Sie beliebige IDE-Tools für Python

  3. Dot Net Core-Laufzeit installieren

  4. Installieren Sie die IronPDF for Python-Bibliothek oder laden Sie sie herunter von hier

  5. Text aus der PDF-Datei extrahieren

2.1 Was ist IronPDF for Python?

Die IronPDF-Bibliothek lässt sich problemlos in Python integrieren, da diese Sprache im Vergleich zu anderen Sprachen sehr viel dynamischer ist und es Entwicklern ermöglicht, schnell und einfach grafische Benutzeroberflächen zu erstellen. Es verfügt über eine Fülle von vorinstallierten Werkzeugen, darunter PyQT, wxWidgets, kivy und zahlreiche zusätzliche Pakete und Bibliotheken, mit denen sich schnell und sicher eine vollständige grafische Benutzeroberfläche erstellen lässt.

IronPDF for Python ist eine äußerst effiziente Bibliothek, die besonders für die Webentwicklung nützlich ist. Die Verfügbarkeit so vieler Python-Paradigmen für die Webentwicklung, wie Django, Flask und Piramyd, ist teilweise dafür verantwortlich. Diese Frameworks wurden bereits von zahlreichen Websites und Online-Diensten verwendet, darunter Reddit, Mozilla und Spotify.

2.2 Merkmale von IronPDF

  • Eine PDF-Datei kann aus einer Vielzahl von Quellen erstellt werden, darunter HTML-, HTML5-, ASP- und PHP-Websites. Neben HTML-Dateien können wir auch Bilddateien in PDF konvertieren.
  • IronPDF ermöglicht es Ihnen, interaktive PDF-Dokumente zu erstellen, interaktive Formulare auszufüllen und zu versenden, PDF-Dateien aufzuteilen und zu kombinieren, Text und Bilder aus PDF-Dateien zu extrahieren, nach bestimmten Wörtern in einer PDF-Datei zu suchen, PDF-Seiten in Bilder zu rastern, PDF in HTML zu konvertieren und PDF-Dateien zu drucken.
  • IronPDF kann PDF-Dateien öffnen und von einer URL aus drucken. Darüber hinaus ermöglicht es die Anmeldung von Benutzeragenten hinter HTML-Anmeldeformularen, Proxys, Cookies, HTTP-Headern, benutzerdefinierten Netzwerk-Anmeldeinformationen, Formularvariablen und Benutzeragenten.
  • Bilder können mit IronPDF aus Dokumenten extrahiert werden.
  • Mit IronPDF können wir Kopf- und Fußzeilen, Text, Bilder, Lesezeichen, Wasserzeichen und vieles mehr zu unseren Dokumenten hinzufügen.
  • Mit IronPDF können wir Seiten in einem neuen oder bestehenden Dokument kombinieren und trennen.
  • Ohne einen Acrobat-Viewer zu verwenden, können Dokumente in PDF-Objekte umgewandelt werden.
  • Eine CSS-Datei kann zur Erstellung eines PDF-Dokuments verwendet werden.
  • Die Erstellung von Dokumenten ist mit CSS-Dateien vom Typ media möglich.

2.3 IronPDF-Bibliothek importieren

Fügen Sie die folgenden Import-Anweisungen am Anfang der Quelldateien ein, in denen IronPDF verwendet werden soll, um IronPDF zu importieren:

from ironpdf import *
PYTHON

2.4 Lizenzschlüssel festlegen (falls erforderlich)

IronPDF for Python ist zwar kostenlos, versieht aber PDF-Dateien mit einem Wasserzeichen, das mit einem gekachelten Hintergrund versehen ist. Sie müssen der Bibliothek einen legitimen Lizenzschlüssel geben, um IronPDF für die Erstellung wasserzeichenfreier PDFs zu verwenden. Wie man die Bibliothek mit einem Lizenzschlüssel einrichtet, zeigt der folgende Codeschnipsel:

License.LicenseKey = "IRONPDF-LICENCE-KEY-ABCDEFGH"
PYTHON

Vergewissern Sie sich, dass der Lizenzschlüssel konfiguriert ist, bevor Sie PDF-Dateien erstellen oder Änderungen an deren Inhalt vornehmen. Die Methode LicenseKey sollte vor allen anderen Codezeilen aufgerufen werden. Um einen kostenlosen Testlizenzschlüssel zu erhalten, setzen Sie sich mit uns in Verbindung oder kaufen Sie einen Lizenzschlüssel auf unserer Lizenzierungsseite.

2.5 Log-Dateien einstellen

Eine Textdatei namens "Default" kann die von Custom.log erzeugten Protokollmeldungen im Verzeichnis des Python-Skripts speichern. Der folgende Codeausschnitt kann verwendet werden, um die Eigenschaft "LogFilePath" festzulegen und den Namen und den Speicherort der Protokolldatei anzupassen:

# Set a log path
Logger.EnableDebugging = True
Logger.LogFilePath = "Custom.log"
Logger.LoggingMode = Logger.LoggingModes.All
PYTHON

3.0 PDF-Text mit IronPDF extrahieren

Die IronPDF for Python-Bibliothek kann PDF-Seiten in PDF-Objekte umwandeln und ermöglicht die Textextraktion aus PDF-Dateien, einschließlich gescannter PDF-Dateien. Hier ein Beispiel, das zeigt, wie man mit IronPDF ein vorhandenes PDF liest.

Bei der ersten Methode wird der gesamte in einer PDF-Datei vorhandene Text extrahiert; nachstehend finden Sie ein Beispiel für den Code.

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON

Wie im obigen Code veranschaulicht, ist die Methode Fromfile ein PDF-Reader-Objekt, das uns hilft, die vorhandene PDF-Datei zu laden und sie in PDF-Dokument-Objekte zu konvertieren. Mit diesem Objekt können wir den Text und die Bilder lesen, die auf den PDF-Seiten vorhanden sind. Das Objekt bietet eine Methode namens ExtractAllText, die jeden Text aus der gesamten PDF-Datei extrahiert und den Text in einer Zeichenkette hält, die verarbeitet werden kann. Und wir verwenden die Druckfunktion, um den Text anzuzeigen.

PDF in Python in Text umwandeln (Tutorial): Abbildung 1 - Anzeige des Textes

Das Codebeispiel für die zweite Methode, mit der wir Seite für Seite Text aus einer PDF-Datei extrahieren können. Es ist unten angegeben.

from ironpdf import *

# Load existing PDF document
pdf = PdfDocument.FromFile("content.pdf")

# Extract text from specific page in the document
page_text = pdf.ExtractTextFromPage(1)
PYTHON

Die Methode Fromfile wird verwendet, um die PDF-Datei aus einer vorhandenen Datei zu laden und in ein PDF-Dateiobjekt zu konvertieren, wie im obigen Code gezeigt. Eine Methode des PDF-Seitenobjekts namens "ExtractTextFromPage" ruft den gesamten Text einer Seite in einer PDF-Datei ab. Die Seitennummer muss als Parameter angegeben werden, damit wir den Text aus dieser bestimmten Seite extrahieren können. Nachdem wir den Text extrahiert haben, übertragen wir ihn in eine Variable, um ihn als Zeichenkette zu speichern, die verarbeitet werden kann.

Auschecken weitere Beispiele um Text aus einer PDF-Datei zu extrahieren.

4.0 Schlussfolgerung

Die IronPDF-Bibliothek hingegen bietet starke Sicherheitsmaßnahmen, um potenzielle Risiken zu verringern. Sie ist nicht auf einen bestimmten Browser zugeschnitten und funktioniert mit allen gängigen Browsern. IronPDF ermöglicht es Programmierern, mit nur wenigen Zeilen Code PDF-Dateien zu erstellen und zu lesen. Die IronPDF-Bibliothek bietet eine Reihe von Lizenzierungsoptionen, darunter eine kostenlose Entwicklerlizenz und zusätzliche Entwicklungslizenzen, die käuflich erworben werden können, um den Anforderungen verschiedener Entwickler gerecht zu werden.

IronPDF beinhaltet eine unbefristete Lizenz, eine 30-Tage-Geld-zurück-Garantie, ein Jahr Software-Support und Upgrade-Optionen. Nach dem Erstkauf fallen keine weiteren Kosten an. Diese Lizenzen können in Entwicklungs-, Staging- und Produktionsumgebungen verwendet werden. Erfahren Sie mehr über produktlizenzierung.

Herunterladen das Softwareprodukt.

< PREVIOUS
Wie man PDF-Dateien in Python anzeigt

Sind Sie bereit, loszulegen? Version: 2024.9 gerade veröffentlicht

pip install gratuit Lizenzen anzeigen >