PRODUKT-VERGLEICHE

Ein Vergleich zwischen IronPDF for Python & PyPDF

Regan Pun

7. August 2023

Teilen Sie:

Einführung

PDFs(Portable Document Format) sind ein weit verbreitetes Dateiformat für die Beibehaltung des Layouts und der Formatierung von Dokumentinformationen über verschiedene Plattformen hinweg. Sie erfreuen sich in verschiedenen Branchen großer Beliebtheit, da sie unabhängig von dem Gerät oder Betriebssystem, mit dem sie geöffnet werden, ein einheitliches Erscheinungsbild aufweisen. PDFs werden häufig für die Weitergabe von Berichten, Rechnungen, Formularen, E-Books, benutzerdefinierten Daten und anderen wichtigen Dokumenten verwendet.

Die Arbeit mit PDF-Dateien in Python ist ein wichtiger Aspekt vieler Projekte geworden. Python bietet mehrere Bibliotheken, die die Bearbeitung von PDF-Dateien vereinfachen und das Extrahieren von Informationen, das Erstellen neuer Dokumente, das Zusammenführen oder Aufteilen bestehender Dokumente und andere PDF-bezogene Aufgaben erleichtern.

In diesem Artikel werden wir einen umfassenden Vergleich von zwei renommierten Python-Bibliotheken zur Bearbeitung von PDF-Dateien durchführen: PyPDF und IronPDF. Durch die Bewertung der Funktionen und Möglichkeiten beider Bibliotheken möchten wir Entwicklern wertvolle Erkenntnisse vermitteln, die ihnen helfen sollen, eine bewusste Entscheidung darüber zu treffen, welche der beiden Bibliotheken am besten zu den Anforderungen ihrer spezifischen Softwareanwendung passt.

Diese Bibliotheken bieten robuste Werkzeuge, um die Arbeit mit PDFs zu rationalisieren und ermöglichen es Entwicklern, PDF-Dokumente in ihren Python-Anwendungen effizient zu verarbeiten. Lassen Sie uns also in den Vergleich eintauchen und die Stärken der einzelnen Bibliotheken untersuchen, um Ihre Aufgaben im Zusammenhang mit PDF zu erleichtern.

PyPDF - Reine Python PDF-Bibliothek

PyPDF ist eine reine Python PDF-Bibliothek, die grundlegende Funktionen zum Lesen, Schreiben, Entschlüsseln von PDF-Dateien und Manipulieren von PDF-Dokumenten bietet. Es ermöglicht Entwicklern, Text und Bilder aus PDFs zu extrahieren, mehrere PDF-Dateien zusammenzuführen, große PDFs in kleinere aufzuteilen und vieles mehr. PyPDF ist für seine Einfachheit und Benutzerfreundlichkeit bekannt, was es zu einer geeigneten Wahl für unkomplizierte PDF-Aufgaben macht.

Es bietet umfassende Funktionen für die Arbeit mit PDF-Dokumenten und ist damit eine ausgezeichnete Wahl für eine Vielzahl von Aufgaben im Zusammenhang mit PDF.

Eigenschaften

PyPDF ist eine Python PDF-Bibliothek, die folgende Funktionen bietet:

Lesen von PDF-Dateien: Extrahieren Sie Text, Bilder und Metadaten aus vorhandenen PDF-Dateien.
PDF-Dateien schreiben: Erstellen Sie neue PDFs von Grund auf oder ändern Sie bestehende mit Text und Bildern.
PDF-Dateien zusammenführen: Kombinieren Sie mehrere PDF-Dateien zu einem einzigen Dokument.
PDF-Dateien aufteilen: Teilen Sie eine PDF-Datei in einzelne Dateien auf, die jeweils eine oder mehrere Seiten enthalten.
Drehen und Überlagern von Seiten: Drehen Sie Seiten und fügen Sie Wasserzeichen oder Überlagerungen zu PDFs hinzu.
Verschlüsseln und Entschlüsseln von PDF-Dateien: Ver- und entschlüsseln Sie PDF-Dateien, um sie sicherer zu machen.
Textextrahieren von Text: Holen Sie sich einfachen Text aus PDFs oder bestimmten Bereichen einer Seite.
Bilder extrahieren: In PDFs eingebettete Bilder können abgerufen werden.
PDF-Dateien manipulieren: Kopieren, löschen oder neu anordnen von Seiten innerhalb einer PDF-Datei.
Form Field Filling: Formularfelder in PDFs programmgesteuert ausfüllen.

IronPDF - Python PDF-Bibliothek

IronPDF ist eine umfassende PDF-Manipulationsbibliothek für Python, die auf der IronPDF for .NET-Bibliothek aufbaut. Es bietet eine leistungsstarke API mit erweiterten Funktionen, wie z. B. die Konvertierung von HTML in PDF, die Bearbeitung von PDF-Anmerkungen und Formularfeldern sowie die effiziente Durchführung komplexer PDF-Operationen. IronPDF wird bevorzugt für Projekte eingesetzt, die eine robuste PDF-Verarbeitung, hohe Leistung und umfangreiche Funktionsunterstützung erfordern.

IronPDF ist eine Python-PDF-Bibliothek, mit der sich PDF-Verarbeitungsaufgaben nahtlos erledigen lassen. Es bietet eine zuverlässige und funktionsreiche Lösung zur PDF-Bearbeitung für Python-Entwickler. Mit IronPDF können Sie mühelos Inhalte aus mehreren Seiten einer PDF-Datei generieren, ändern und extrahieren, was es zu einer hervorragenden Wahl für verschiedene PDF-bezogene Anwendungen macht.

Eigenschaften

Hier sind einige herausragende Merkmale von IronPDF:

PDF-Erzeugung**IronPDF ermöglicht es Entwicklern, PDF-Dokumente von Grund auf neu zu erstellen oder HTML-Inhalte in das PDF-Format zu konvertieren, was die Erstellung dynamischer und visuell ansprechender Berichte und Dokumente erleichtert.
Erweiterter Text und**Bildmanipulation:** Entwickler können Text und Bilder in PDF-Dateien leicht manipulieren. IronPDF bietet Funktionen zum Hinzufügen, Bearbeiten und Formatieren von Text sowie zum Einfügen, Ändern der Größe und Positionieren von Bildern mit Präzision.
PDF-Zusammenführung *undPDF-Splitting**IronPDF ermöglicht das Zusammenführen mehrerer PDF-Dateien in ein einziges Dokument und das Aufteilen einer PDF-Datei in mehrere separate Dateien und bietet damit Flexibilität bei der Verwaltung von PDF-Inhalten.
PDF-Formular-Unterstützung: Mit IronPDF können Entwickler mit PDF-Formularen arbeiten und Formularfelder ausfüllen, Formulardaten extrahieren und interaktive PDFs erstellen.
PDF-Sicherheit *undVerschlüsselung**IronPDF bietet Funktionen zum Hinzufügen von Passwortschutz und Verschlüsselung zu PDF-Dokumenten, um die Sicherheit und Vertraulichkeit der Daten zu gewährleisten.
PDF-Anmerkungen: Entwickler können Anmerkungen wie Kommentare, Hervorhebungen und Lesezeichen hinzufügen, um die Zusammenarbeit und Lesbarkeit von PDF-Dateien zu verbessern.
Kopf- und Fußzeile: IronPDF ermöglicht das Hinzufügen von Kopf- und Fußzeilen zu PDF-Seiten, um dem Dokument ein Branding und einen Kontext zu verleihen.
Barcode-Erzeugung**IronPDF ermöglicht es, verschiedene Arten von Barcodes und QR-Codes direkt in PDF-Dokumenten mit HTML zu erzeugen.
Hohe Leistung: IronPDF baut auf der .NET-Bibliothek von IronPDF auf und bietet hohe Leistung und Effizienz bei der Bearbeitung großer PDF-Dateien und komplexer Vorgänge.
Der Artikel lautet nun wie folgt:

Ein Python-Projekt erstellen
PyPDF-Installation
IronPDF-Installation
PDF-Dokumente erstellen
Zusammenführen von PDF-Dateien
PDF-Dateien aufteilen
Extrahieren von Text aus PDF-Dateien
Lizenzvergabe
Schlussfolgerung

1. Ein Python-Projekt erstellen

Verwendung einer Integrierten Entwicklungsumgebung(IDE) für Python-Projekte kann die Produktivität erheblich steigern. Ich werde PyCharm verwenden, da es sich durch intelligente Code-Vervollständigung, leistungsstarkes Debugging und nahtlose Integration mit Versionskontrollsystemen auszeichnet. Wenn Sie das Programm nicht installiert haben, können Sie es von der JetBrains-Website herunterladen(https://www.jetbrains.com/pycharm/)oder Sie können jede IDE/Texteditor für Python-Programme wie VS Code verwenden.

So erstellen Sie ein Python-Projekt in PyCharm:

Starten Sie PyCharm und klicken Sie auf "Neues Projekt erstellen" auf dem PyCharm-Willkommensbildschirm oder wählen Sie Datei > Neues Projekt im Menü.
Wählen Sie den Python-Interpreter. Wenn Sie noch keinen Dolmetscher eingerichtet haben, klicken Sie auf das Zahnradsymbol und konfigurieren Sie einen neuen Dolmetscher.
Wählen Sie den Projektstandort und die Vorlage aus.
Geben Sie den Projektnamen und die Einstellungen an, und klicken Sie dann auf Erstellen.
Beginnen Sie mit der Codierung, Ausführung und Fehlersuche in Ihrem Python-Projekt.

2. PyPDF-Installation

PyPDF, eine reine Python-Bibliothek, kann auf mehrere Arten installiert werden. Wir können es sowohl mit Command Prompt als auch mit PyCharm installieren.

2.1. Verwenden der Eingabeaufforderung

Öffnen Sie die Eingabeaufforderung oder das Terminal auf Ihrem Computer.
Um PyPDF zu installieren, verwenden Sie den folgenden Pip-Befehl:

    :ProductInstall

Warten Sie, bis die PyPDF-Installation abgeschlossen ist. Sie sollten eine Erfolgsmeldung sehen, die anzeigt, dass PyPDF installiert wurde.
Sie können den gleichen Prozess verwenden, um PyPDF in PyCharm Terminal zu installieren.
Hinweis: Python muss zur Umgebungsvariablen System PATH hinzugefügt werden.

2.2. Verwendung von PyCharm

Öffnen Sie die PyCharm IDE.
Erstellen Sie ein neues Python-Projekt oder öffnen Sie ein bestehendes Projekt.
Wenn Sie sich im Projekt befinden, klicken Sie im oberen Menü auf Datei und wählen Sie Einstellungen.
Navigieren Sie im Einstellungsfenster zu "Projekt:" und klicken Sie auf "Python Interpreter"
Klicken Sie im Fenster des Python-Interpreters auf das Symbol "+", um ein neues Paket hinzuzufügen.
Suchen Sie im Fenster "Verfügbare Pakete" nach "PyPDF"
Wählen Sie "PyPDF" aus der Liste und klicken Sie auf die Schaltfläche "Paket installieren".
Warten Sie, bis PyCharm PyPDF heruntergeladen und installiert hat.

3. IronPDF-Installation

Vorbedingung

IronPDF for Python nutzt die leistungsstarke .NET 6.0-Technologie als Grundlage. Um IronPDF for Python effektiv nutzen zu können, muss daher unbedingt die .NET 6.0 Runtime auf Ihrem System installiert sein. Linux- und Mac-Benutzer müssen möglicherweise .NET von der offiziellen Microsoft-Website herunterladen und installieren(https://dotnet.microsoft.com/en-us/download/dotnet/6.0) bevor Sie mit diesem Python-Paket weiterarbeiten. Das Vorhandensein der .NET 6.0-Laufzeitumgebung ermöglicht eine nahtlose Integration und optimale Leistung bei der Verwendung von IronPDF for Python für PDF-Verarbeitungsaufgaben.

3.1. Verwenden der Eingabeaufforderung

Öffnen Sie die Eingabeaufforderung oder das Terminal auf Ihrem Computer.
Um IronPDF zu installieren, verwenden Sie den folgenden Pip-Befehl:

    :PackageInstall

Warten Sie, bis die Installation abgeschlossen ist. Sie sollten eine Erfolgsmeldung sehen, die anzeigt, dass IronPDF installiert wurde.

3.2. Verwendung von PyCharm

Öffnen Sie die PyCharm IDE auf Ihrem Computer.
Erstellen Sie ein neues Python-Projekt oder öffnen Sie ein bestehendes Projekt.
Wenn Sie sich im Projekt befinden, klicken Sie im oberen Menü auf "Datei" und wählen Sie "Einstellungen".
Navigieren Sie im Einstellungsfenster zu "Projekt:" und klicken Sie auf "Python Interpreter"
Klicken Sie im Fenster des Python-Interpreters auf das Symbol "+", um ein neues Paket hinzuzufügen.
Suchen Sie im Fenster "Verfügbare Pakete" nach "ironpdf"
Wählen Sie "ironpdf" aus der Liste und klicken Sie auf die Schaltfläche "Paket installieren".
Warten Sie, bis IronPDF heruntergeladen und installiert ist. Es wird eine Erfolgsmeldung angezeigt, dass IronPDF installiert ist.
Nun sind beide Bibliotheken installiert und einsatzbereit. Kommen wir nun zum eigentlichen Vergleich.

4. PDF-Dokumente erstellen

4.1. Verwendung von PyPDF

PyPDF bietet grundlegende Funktionen zur Erstellung neuer PDF-Dateien. Es verfügt jedoch nicht über eine integrierte Methode zur direkten Konvertierung von HTML-Inhalten in PDF. Um eine neue PDF-Datei mit PyPDF zu erstellen, müssen wir Inhalte zu einer bestehenden PDF-Datei hinzufügen oder eine neue leere PDF-Datei erstellen und ihr dann Text oder Bilder hinzufügen. Der folgende Code hilft, diese Aufgabe der Erstellung von PDF-Dateien zu erfüllen:

from pypdf import PdfWriter, PdfReader

# Create a new PDF file
pdf_output = PdfWriter()

# Add a new blank page
page = pdf_output.add_blank_page(width=610, height=842)  # Width and height are in points (1 inch = 72 points)

# Read content from an existing PDF
with open('input.pdf', 'rb') as existing_pdf:
    existing_pdf_reader = PdfReader(existing_pdf)
    # Merge content from the first page of the existing PDF
    page.merge_page(existing_pdf_reader.pages [0])

# Save the new PDF to a file
with open('output.pdf', 'wb') as output_file:
    pdf_output.write(output_file)

from pypdf import PdfWriter, PdfReader

# Create a new PDF file
pdf_output = PdfWriter()

# Add a new blank page
page = pdf_output.add_blank_page(width=610, height=842)  # Width and height are in points (1 inch = 72 points)

# Read content from an existing PDF
with open('input.pdf', 'rb') as existing_pdf:
    existing_pdf_reader = PdfReader(existing_pdf)
    # Merge content from the first page of the existing PDF
    page.merge_page(existing_pdf_reader.pages [0])

# Save the new PDF to a file
with open('output.pdf', 'wb') as output_file:
    pdf_output.write(output_file)

PYTHON

Die Eingabedatei enthält 28 Seiten und nur die erste Seite wird der neuen PDF-Datei hinzugefügt. Die Ausgabe sieht wie folgt aus:

Ein Vergleich zwischen IronPDF for Python und PyPDF: Abbildung 6 - PDF-Ausgabe

4.2. Verwendung von IronPDF

IronPDF bietet erweiterte Funktionen zur Erstellung neuer PDF-Dateien direkt aus HTML-Inhalten. So lassen sich dynamische Berichte und Dokumente ohne zusätzliche Schritte erstellen. Hier ist der Beispielcode:

import ironpdf

ironpdf.License.LicenseKey = "YOUR-LICENSE-KEY-HERE"

# Create a PDF from a HTML string using Python
pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1><p>This PDF is created using IronPDF for Python</p>")

# Export to a file or Stream
pdf.SaveAs("output.pdf")

# Advanced Example with HTML Assets
# Load external html assets Images, CSS and JavaScript.
# An optional BasePath 'C\site\assets\' is set as the file location to load assets from
myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", "C:\site\assets")
myAdvancedPdf.SaveAs("html-with-assets.pdf")

import ironpdf

ironpdf.License.LicenseKey = "YOUR-LICENSE-KEY-HERE"

# Create a PDF from a HTML string using Python
pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1><p>This PDF is created using IronPDF for Python</p>")

# Export to a file or Stream
pdf.SaveAs("output.pdf")

# Advanced Example with HTML Assets
# Load external html assets Images, CSS and JavaScript.
# An optional BasePath 'C\site\assets\' is set as the file location to load assets from
myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", "C:\site\assets")
myAdvancedPdf.SaveAs("html-with-assets.pdf")

PYTHON

Im obigen Code haben wir zunächst den Lizenzschlüssel angewendet, um die volle Leistungsfähigkeit von IronPDF zu nutzen. Sie können das Programm auch ohne Lizenzschlüssel verwenden, allerdings erscheinen dann Wasserzeichen in den erstellten PDF-Dateien. Dann erstellen wir zwei PDF-Dokumente, das erste mit einem HTML-String als Inhalt und das zweite mit Assets. Die Ausgabe lautet wie folgt:

Ein Vergleich zwischen IronPDF for Python und PyPDF: Abbildung 7 - IronPDF-Ausgabe

5. Zusammenführen von PDF-Dateien

5.1. Verwendung von PyPDF

PyPDF ermöglicht das Zusammenführen mehrerer Seiten/Dokumente in ein einziges PDF durch Anhängen von Seiten aus einem PDF an ein anderes. Fügen Sie die Eingabepfade aller PDF-Dateien in der Liste hinzu und verwenden Sie die Append-Methode, um eine einzige Datei zu erstellen.

from pypdf import PdfWriter

merger = PdfWriter()

for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)

merger.write("merged-pdf.pdf")
merger.close()

from pypdf import PdfWriter

merger = PdfWriter()

for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)

merger.write("merged-pdf.pdf")
merger.close()

PYTHON

5.2. Verwendung von IronPDF

IronPDF bietet auch ähnliche Funktionen für die Zusammenführung von Dokumenten in ein einziges Dokument, wodurch die Konsolidierung von Inhalten aus verschiedenen PDF-Quellen erleichtert wird.

import ironpdf

ironpdf.License.LicenseKey = "YOUR-LICENSE-KEY-HERE"

html_a = """<p> [PDF_A] </p>
            <p> [PDF_A] 1st Page </p>
            <div style='page-break-after: always;'></div>
            <p> [PDF_A] 2nd Page</p>"""

html_b = """<p> [PDF_B] </p>
            <p> [PDF_B] 1st Page </p>
            <div style='page-break-after: always;'></div>
            <p> [PDF_B] 2nd Page</p>"""

renderer = ironpdf.ChromePdfRenderer()

pdfdoc_a = renderer.RenderHtmlAsPdf(html_a)
pdfdoc_b = renderer.RenderHtmlAsPdf(html_b)
merged = PdfDocument.Merge(pdfdoc_a, pdfdoc_b)

merged.SaveAs("Merged.pdf")

import ironpdf

ironpdf.License.LicenseKey = "YOUR-LICENSE-KEY-HERE"

html_a = """<p> [PDF_A] </p>
            <p> [PDF_A] 1st Page </p>
            <div style='page-break-after: always;'></div>
            <p> [PDF_A] 2nd Page</p>"""

html_b = """<p> [PDF_B] </p>
            <p> [PDF_B] 1st Page </p>
            <div style='page-break-after: always;'></div>
            <p> [PDF_B] 2nd Page</p>"""

renderer = ironpdf.ChromePdfRenderer()

pdfdoc_a = renderer.RenderHtmlAsPdf(html_a)
pdfdoc_b = renderer.RenderHtmlAsPdf(html_b)
merged = PdfDocument.Merge(pdfdoc_a, pdfdoc_b)

merged.SaveAs("Merged.pdf")

PYTHON

6. PDF-Dateien aufteilen

6.1. Verwendung von PyPDF

PyPDF ist eine Python-Bibliothek, die ein einzelnes PDF in mehrere separate PDFs aufteilen kann, die jeweils eine oder mehrere PDF-Seiten enthalten.

from pypdf import PdfReader, PdfWriter

# Open the PDF file
pdf_file = open('input.pdf', 'rb')

# Create a PdfFileReader object
pdf_reader = PdfReader(pdf_file)

# Split each page into separate PDFs
for page_num in range(len(pdf_reader.pages)):
    pdf_writer = PdfWriter()
    pdf_writer.add_page(pdf_reader.pages [page_num])
    output_filename = f'page_{page_num + 1}_pypdf.pdf'
    with open(output_filename, 'wb') as output_file:
        pdf_writer.write(output_file)

# Close the PDF file
pdf_file.close()

from pypdf import PdfReader, PdfWriter

# Open the PDF file
pdf_file = open('input.pdf', 'rb')

# Create a PdfFileReader object
pdf_reader = PdfReader(pdf_file)

# Split each page into separate PDFs
for page_num in range(len(pdf_reader.pages)):
    pdf_writer = PdfWriter()
    pdf_writer.add_page(pdf_reader.pages [page_num])
    output_filename = f'page_{page_num + 1}_pypdf.pdf'
    with open(output_filename, 'wb') as output_file:
        pdf_writer.write(output_file)

# Close the PDF file
pdf_file.close()

PYTHON

Der obige Code teilt das 28-seitige PDF-Dokument auf, um es in einzelne Seiten aufzuteilen und als 28 neue PDF-Dateien zu speichern.

6.2. Verwendung von IronPDF

IronPDF bietet auch ähnliche Funktionen für die Aufteilung von PDFs, die es dem Benutzer ermöglichen, ein einzelnes PDF in mehrere PDF-Dateien zu unterteilen, die jeweils eine einzelne PDF-Seite enthalten. Es ermöglicht uns, eine bestimmte Seite aus einem PDF mit mehreren Seiten zu teilen. Der folgende Code hilft bei der Aufteilung von Dokumenten in mehrere Dateien:

import ironpdf

ironpdf.License.LicenseKey = "YOUR-LICENSE-KEY-HERE"

html = """<p> Hello Iron </p>
            <p> This is 1st Page </p>
            <div style='page-break-after: always;'></div>
            <p> This is 2nd Page</p>
            <div style='page-break-after: always;'></div>
            <p> This is 3rd Page</p>"""

renderer = ironpdf.ChromePdfRenderer()
pdf = renderer.RenderHtmlAsPdf(html)

# take the first page
page1doc = pdf.CopyPage(0)
page1doc.SaveAs("Split1.pdf")

# take the pages 2 & 3
page23doc = pdf.CopyPages(1, 2)
page23doc.SaveAs("Split2.pdf")

import ironpdf

ironpdf.License.LicenseKey = "YOUR-LICENSE-KEY-HERE"

html = """<p> Hello Iron </p>
            <p> This is 1st Page </p>
            <div style='page-break-after: always;'></div>
            <p> This is 2nd Page</p>
            <div style='page-break-after: always;'></div>
            <p> This is 3rd Page</p>"""

renderer = ironpdf.ChromePdfRenderer()
pdf = renderer.RenderHtmlAsPdf(html)

# take the first page
page1doc = pdf.CopyPage(0)
page1doc.SaveAs("Split1.pdf")

# take the pages 2 & 3
page23doc = pdf.CopyPages(1, 2)
page23doc.SaveAs("Split2.pdf")

PYTHON

Ausführliche Informationen zu IronPDF über das Lesen von PDF-Dateien, das Drehen von PDF-Seiten, das Beschneiden von Seiten, das Festlegen von Eigentümer-/Benutzerpasswörtern und andere Sicherheitsoptionen finden Sie hierIronPDF for Python Code Beispiele Seite.

7. Extrahieren von Text aus PDF-Dateien

7.1. Verwendung von PyPDF

PyPDF bietet eine einfache Methode zur Extraktion von Text aus PDFs. Es bietet die Klasse PdfReader, die es dem Benutzer ermöglicht, den Textinhalt aus der PDF-Datei zu lesen.

from pypdf import PdfReader

reader = PdfReader("input.pdf")
page = reader.pages [0]
print(page.extract_text())

from pypdf import PdfReader

reader = PdfReader("input.pdf")
page = reader.pages [0]
print(page.extract_text())

PYTHON

7.2. Verwendung von IronPDF

IronPDF unterstützt auch die Extraktion von Text aus PDFs mit Hilfe der Klasse PdfDocument. Es bietet eine Methode namens ExtractAllText, um den Textinhalt aus der PDF-Datei zu erhalten. Allerdings extrahiert die kostenlose Version von IronPDF nur wenige Zeichen aus dem PDF-Dokument. Um Volltext aus PDFs zu extrahieren, muss IronPDF lizenziert werden. Hier ist das Codebeispiel zum Extrahieren von Inhalten aus PDF-Dateien:

import ironpdf

ironpdf.License.LicenseKey = "YOUR-LICENSE-KEY-HERE"

# Load existing PDF document
pdf = ironpdf.PdfDocument.FromFile("input.pdf")
# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)

import ironpdf

ironpdf.License.LicenseKey = "YOUR-LICENSE-KEY-HERE"

# Load existing PDF document
pdf = ironpdf.PdfDocument.FromFile("input.pdf")
# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)

PYTHON

Um mehr über das Extrahieren von Text zu erfahren, besuchen Sie bitte diese SeitePDF Text zu Python beispiel.

8. Lizenzvergabe

PyPDF

PyPDF wird unter der MIT-Lizenz vertrieben, einer Open-Source-Softwarelizenz, die für ihre freizügigen Bedingungen bekannt ist. Die MIT-Lizenz erlaubt es den Nutzern, die PyPDF-Bibliothek ohne Einschränkungen zu verwenden, zu verändern, zu verbreiten und unterzulizenzieren. Die Benutzer müssen den Quellcode ihrer Anwendungen, die PyPDF verwenden, nicht offenlegen, so dass es sich sowohl für private als auch für kommerzielle Projekte eignet.

Der vollständige Text der MIT-Lizenz ist in der Regel im PyPDF-Quellcode enthalten und kann in der Datei "LICENSE" in der Distribution der Bibliothek gefunden werden. Außerdem ist das PyPDF GitHub-Repository(https://github.com/py-pdf/pypdf) dient als Hauptquelle für den Zugriff auf die neueste Version der Bibliothek und die damit verbundenen Lizenzinformationen.

IronPDF

IronPDF ist eine kommerzielle Bibliothek und nicht Open-Source. Es wird von Iron Software LLC entwickelt und vertrieben. Die Verwendung von IronPDF erfordert eine gültige Lizenz von Iron Software. Es sind verschiedene Arten von Lizenzen erhältlich, darunter Testversionen für Evaluierungszwecke und kostenpflichtige Lizenzen für die kommerzielle Nutzung.

Da IronPDF ein kommerzielles Produkt ist, bietet es im Vergleich zu Open-Source-Alternativen zusätzliche Funktionen und technischen Support. Um eine Lizenz für IronPDF zu erhalten, können Benutzerbesuchen Sie die offizielle Website um sich über die verfügbaren Lizenzierungsoptionen, Preise und Supportdetails zu informieren. Das Lite-Paket beginnt bei $749 und ist eine unbefristete Lizenz.

Ein Vergleich zwischen IronPDF for Python und PyPDF: Abbildung 8 - IronPDF-Lizenz

9. Schlussfolgerung

Zusammenfassung

PyPDF ist eine leistungsstarke und benutzerfreundliche Python-Bibliothek für die Arbeit mit PDF-Dateien. Seine Funktionen zum Lesen, Schreiben, Zusammenführen und Aufteilen von PDFs machen es zu einem unverzichtbaren Werkzeug für PDF-Bearbeitungsaufgaben. Ob Sie nun Text aus einem PDF extrahieren, neue PDFs von Grund auf erstellen oder bestehende Dokumente zusammenführen und aufteilen müssen, PyPDF bietet eine zuverlässige und effiziente Lösung. Durch die Nutzung der Funktionen von PyPDF können Python-Entwickler ihre PDF-bezogenen Arbeitsabläufe rationalisieren und ihre Produktivität steigern.

IronPDF ist eine umfassende und effiziente PDF-Manipulationsbibliothek für Python, die eine breite Palette von Funktionen zum Lesen, Erstellen, Zusammenführen und Aufteilen von PDF-Dateien bietet. Ganz gleich, ob Sie dynamische PDF-Berichte erstellen, Dokumentinformationen aus vorhandenen PDFs extrahieren oder mehrere Dokumente zusammenführen möchten, IronPDF bietet eine zuverlässige und benutzerfreundliche Lösung. Durch die Nutzung der Möglichkeiten von IronPDF können Python-Entwickler ihre PDF-bezogenen Arbeitsabläufe rationalisieren und ihre Produktivität steigern.

Im Gesamtvergleich ist PyPDF eine leichtgewichtige und einfach zu bedienende Bibliothek, die für grundlegende PDF-Operationen geeignet ist. Es ist eine gute Wahl für Projekte mit einfachen PDF-Anforderungen. Andererseits bietet IronPDF eine umfangreichere API und eine robuste Leistung, wodurch es sich ideal für Projekte eignet, die erweiterte PDF-Verarbeitungsfunktionen, die Verarbeitung großer PDF-Dateien und die Durchführung komplexer Aufgaben erfordern.

Schlussfolgerung

Beide Bibliotheken bieten gute Kodierungsmöglichkeiten für gängige PDF-Aufgaben. PyPDF eignet sich für einfache Operationen und schnelle Implementierungen, während IronPDF eine umfangreichere und vielseitigere API für die Handhabung komplexer PDF-bezogener Aufgaben bietet.

In Bezug auf die Leistung ist IronPDF PyPDF wahrscheinlich überlegen, insbesondere wenn es um umfangreiche PDF-Dateien oder Aufgaben geht, die komplexe PDF-Manipulationen erfordern.

Die Wahl zwischen den beiden Bibliotheken hängt von den spezifischen Anforderungen des Projekts und der Komplexität der PDF-bezogenen Aufgaben ab.

IronPDF ist auch erhältlich für einekostenloser Test um seine vollständige Funktionalität im kommerziellen Modus zu testen. IronPDF for Python herunterladen vonhier.

Regan Pun

Jetzt mit dem Ingenieurteam chatten

Software-Ingenieur

Regan schloss sein Studium an der University of Reading mit einem BA in Elektrotechnik ab. Bevor er zu Iron Software kam, konzentrierte er sich in seinen früheren Jobs auf einzelne Aufgaben. Was ihm bei Iron Software am meisten Spaß macht, ist das Spektrum der Aufgaben, die er übernehmen kann, sei es im Vertrieb, im technischen Support, in der Produktentwicklung oder im Marketing. Es macht ihm Spaß, die Art und Weise zu verstehen, wie Entwickler die Bibliothek von Iron Software nutzen, und dieses Wissen zu nutzen, um die Dokumentation und die Produkte kontinuierlich zu verbessern.

< PREVIOUS
Python HTML zu PDF ohne Wkhtmltopdf (Alternatives Tutorial)