Zum Fußzeileninhalt springen
PRODUKTVERGLEICHE

Ein Vergleich zwischen IronPDF Für Python & PyPDF

PDFs (Portable Document Format) sind ein weit verbreitetes Dateiformat, um das Layout und die Formatierung von Dokumenten über verschiedene Plattformen hinweg beizubehalten. Sie sind in verschiedenen Branchen sehr beliebt, da sie unabhängig vom Gerät oder Betriebssystem, mit dem sie geöffnet werden, ein einheitliches Erscheinungsbild haben. PDFs werden üblicherweise für den Austausch von Berichten, Rechnungen, Formularen, E-Books, benutzerdefinierten Daten und anderen wichtigen Dokumenten verwendet.

Die Arbeit mit PDF-Dateien in Python ist zu einem wichtigen Aspekt vieler Projekte geworden. Python bietet mehrere Bibliotheken, die die Bearbeitung von PDF-Dateien vereinfachen und das Extrahieren von Informationen, das Erstellen neuer Dokumente, das Zusammenführen oder Teilen bestehender Dokumente und andere PDF-bezogene Aufgaben erleichtern.

In diesem Artikel werden wir einen umfassenden Vergleich zweier bekannter Python-Bibliotheken durchführen, die für die Bearbeitung von PDF-Dateien entwickelt wurden: PyPDF und IronPDF. Durch die Bewertung der Funktionen und Möglichkeiten beider Bibliotheken wollen wir Entwicklern wertvolle Einblicke geben, damit sie eine bewusste Entscheidung treffen können, welche Bibliothek am besten für ihre spezifischen Softwareanwendungen geeignet ist.

Diese Bibliotheken bieten robuste Werkzeuge, um die Arbeit mit PDFs zu optimieren, und ermöglichen es Entwicklern, PDF-Dokumente in ihren Python-Anwendungen effizient zu verarbeiten. Tauchen wir also tief in den Vergleich ein und erkunden die Stärken der einzelnen Bibliotheken, um Ihre Aufgaben im Zusammenhang mit PDF zu erleichtern.

PyPDF - Reine Python PDF-Bibliothek

PyPDF ist eine reine Python-PDF-Bibliothek, die grundlegende Funktionen zum Lesen, Schreiben, Entschlüsseln von PDF-Dateien und Bearbeiten von PDF-Dokumenten bietet. Es ermöglicht Entwicklern, Text und Bilder aus PDFs zu extrahieren, mehrere PDF-Dateien zusammenzuführen, große PDFs in kleinere aufzuteilen und vieles mehr. PyPDF ist für seine Einfachheit und Benutzerfreundlichkeit bekannt und eignet sich daher für unkomplizierte PDF-Aufgaben.

Es bietet umfassende Funktionen für die Arbeit mit PDF-Dokumenten und ist damit eine ausgezeichnete Wahl für eine Vielzahl von Aufgaben im Zusammenhang mit PDF.

Funktionen

PyPDF ist eine Python-PDF-Bibliothek, die die folgenden Funktionen bietet:

  • Lesen von PDF-Dateien: Extrahieren von Text, Bildern und Metadaten aus vorhandenen PDF-Dateien.
  • PDF-Dateien schreiben: Erstellen Sie neue PDFs von Grund auf oder ändern Sie bestehende mit Text und Bildern.
  • PDF-Dateien zusammenführen: Kombinieren Sie mehrere PDF-Dateien zu einem einzigen Dokument.
  • PDF-Dateien aufteilen: Eine PDF-Datei in separate Dateien aufteilen, die jeweils eine oder mehrere Seiten enthalten.
  • Drehen und Überlagern von Seiten: Drehen von Seiten und Hinzufügen von Wasserzeichen oder Überlagerungen zu PDFs.
  • PDF-Dateien verschlüsseln und entschlüsseln: PDF-Dateien verschlüsseln und entschlüsseln, um sie sicherer zu machen.
  • Extrahieren von Text: Holen Sie sich einfachen Text aus PDFs oder bestimmten Bereichen innerhalb einer Seite.
  • Bilder extrahieren: In PDFs eingebettete Bilder abrufen.
  • Manipulation von PDF-Dateien: Kopieren, Löschen oder Anordnen von Seiten innerhalb einer PDF-Datei.
  • Form Field Filling: Programmgesteuertes Ausfüllen von Formularfeldern in PDFs.

IronPDF - Python PDF Library

IronPDF ist eine umfassende PDF-Manipulationsbibliothek für Python, die auf der IronPDF for .NET-Bibliothek aufbaut. Es bietet eine leistungsstarke API mit erweiterten Funktionen, wie z. B. die Konvertierung von HTML in PDF, die Handhabung von PDF-Anmerkungen und Formularfeldern sowie die effiziente Durchführung komplexer PDF-Operationen. IronPDF wird für Projekte bevorzugt, die eine robuste PDF-Verarbeitung, Leistung und umfangreiche Funktionsunterstützung erfordern.

IronPDF ist eine Python-PDF-Bibliothek, die PDF-Verarbeitungsaufgaben nahtlos bewältigen kann. Sie bietet eine zuverlässige und funktionsreiche Lösung zur PDF-Bearbeitung für Python-Entwickler. Mit IronPDF können Sie mühelos Inhalte aus mehreren Seiten einer PDF-Datei generieren, ändern und extrahieren, was es zu einer hervorragenden Wahl für verschiedene PDF-bezogene Anwendungen macht.

Funktionen

Hier sind einige der wichtigsten Funktionen von IronPDF:

  • PDF-Generierung: IronPDF ermöglicht es Entwicklern, PDF-Dokumente von Grund auf zu erstellen oder HTML-Inhalte in das PDF-Format zu konvertieren, was die Erstellung dynamischer und visuell ansprechender Berichte und Dokumente erleichtert.
  • Erweiterte Text- und Bildmanipulation: Entwickler können Text und Bilder in PDF-Dateien leicht manipulieren. IronPDF bietet Funktionen zum Hinzufügen, Bearbeiten und Formatieren von Text sowie zum präzisen Einfügen, Ändern der Größe und Positionieren von Bildern.
  • PDF-Zusammenführung und PDF-Aufteilung: IronPDF ermöglicht die Zusammenführung mehrerer PDF-Dateien in ein einziges Dokument und die Aufteilung einer PDF-Datei in mehrere separate Dateien und bietet so Flexibilität bei der Verwaltung von PDF-Inhalten.
  • PDF-Formularunterstützung: Mit IronPDF können Entwickler mit PDF-Formularen arbeiten und Formularfelder ausfüllen, Formulardaten extrahieren und interaktive PDFs erstellen.
  • PDF-Sicherheit und -Verschlüsselung: IronPDF bietet Funktionen zum Hinzufügen von Passwortschutz und Verschlüsselung zu PDF-Dokumenten, um Datensicherheit und Vertraulichkeit zu gewährleisten.
  • PDF-Anmerkungen: Entwickler können Anmerkungen wie Kommentare, Hervorhebungen und Lesezeichen hinzufügen, um die Zusammenarbeit und die Lesbarkeit in PDFs zu verbessern.
  • Kopf- und Fußzeilen: IronPDF ermöglicht das Hinzufügen von Kopf- und Fußzeilen zu PDF-Seiten, um das Branding und den Kontext des Dokuments zu gewährleisten.
  • Barcode-Generierung: IronPDF ermöglicht die Generierung verschiedener Arten von Barcodes und QR-Codes direkt in PDF-Dokumenten mit HTML.
  • Hohe Leistung: IronPDF basiert auf der .NET-Bibliothek von IronPDF und bietet hohe Leistung und Effizienz bei der Verarbeitung großer PDF-Dateien und komplexer Vorgänge.

Der Artikel lautet nun wie folgt:

  1. Ein Python-Projekt erstellen
  2. PyPDF-Installation
  3. IronPDF-Installation
  4. Erstellen von PDF-Dokumenten
  5. Zusammenführen von PDF-Dateien
  6. PDF-Dateien aufteilen
  7. Extrahieren von Text aus PDF-Dateien
  8. Lizenzierung
  9. Fazit

1. Ein Python-Projekt erstellen

Die Verwendung einer Integrierten Entwicklungsumgebung (IDE) für Python-Projekte kann die Produktivität erheblich steigern. Unter den beliebten Tools werde ich PyCharm verwenden, da es sich durch seine intelligente Code-Vervollständigung, sein leistungsstarkes Debugging und seine nahtlose Integration in Versionskontrollsysteme auszeichnet. Wenn Sie das Programm nicht installiert haben, können Sie es von der JetBrains-Website PyCharm herunterladen oder eine beliebige IDE/Texteditor für Python-Programmierung wie VS Code verwenden.

So erstellen Sie ein Python-Projekt in PyCharm:

  1. Starten Sie PyCharm und klicken Sie auf "Neues Projekt erstellen" auf dem PyCharm-Willkommensbildschirm oder gehen Sie zu Datei > Neues Projekt im Menü.

    Ein Vergleich zwischen IronPDF for Python & PyPDF: Abbildung 1 - PyCharm

  2. Wählen Sie den Python-Interpreter. Wenn Sie noch keinen Dolmetscher eingerichtet haben, klicken Sie auf das Zahnradsymbol und konfigurieren Sie einen neuen Dolmetscher.
  3. Wählen Sie den Projektstandort und die Vorlage.
  4. Geben Sie den Projektnamen und die Einstellungen an und klicken Sie dann auf Erstellen.

    Ein Vergleich zwischen IronPDF for Python & PyPDF: Abbildung 2 - Neues Projekt

  5. Beginnen Sie mit der Codierung, Ausführung und Fehlersuche in Ihrem Python-Projekt.

2. PyPDF-Installation

PyPDF, eine reine Python-Bibliothek, kann auf mehrere Arten installiert werden. Wir können es sowohl mit der Eingabeaufforderung als auch mit PyCharm installieren.

2.1. Verwendung der Eingabeaufforderung

  1. Öffnen Sie die Eingabeaufforderung oder das Terminal auf Ihrem Computer.
  2. Um PyPDF zu installieren, verwenden Sie den folgenden pip-Befehl:

    pip install pypdf
    pip install pypdf
    SHELL
  3. Warten Sie, bis die Installation von PyPDF abgeschlossen ist. Sie sollten eine Erfolgsmeldung sehen, die anzeigt, dass PyPDF installiert wurde.

Sie können den gleichen Prozess verwenden, um PyPDF im PyCharm Terminal zu installieren.

Hinweis: Python muss der Umgebungsvariablen System PATH hinzugefügt werden.

2.2. Die Verwendung von PyCharm

  1. PyCharm IDE öffnen.
  2. Erstellen Sie ein neues Python-Projekt oder öffnen Sie ein bestehendes Projekt.
  3. Wenn Sie sich im Projekt befinden, klicken Sie im oberen Menü auf Datei und wählen Sie Einstellungen.
  4. Navigieren Sie im Einstellungsfenster zu "Projekt: " und klicken Sie auf "Python Interpreter"
  5. Klicken Sie im Fenster des Python-Interpreters auf das Symbol "+", um ein neues Paket hinzuzufügen.

    Ein Vergleich zwischen IronPDF for Python & PyPDF: Abbildung 3 - Python-Interpreter

  6. Suchen Sie im Fenster "Verfügbare Pakete" nach "PyPDF"

    Ein Vergleich zwischen IronPDF for Python & PyPDF: Abbildung 4 - PyPDF

  7. Wählen Sie "PyPDF" aus der Liste und klicken Sie auf die Schaltfläche "Paket installieren".
  8. Warten Sie auf PyCharm, um PyPDF herunterzuladen und zu installieren.

3. IronPDF-Installation

Voraussetzung

IronPDF for Python nutzt die leistungsstarke .NET 6.0-Technologie als Grundlage. Um IronPDF for Python effektiv nutzen zu können, muss daher unbedingt die .NET 6.0-Laufzeitumgebung auf Ihrem System installiert sein. Linux- und Mac-Benutzer müssen möglicherweise .NET von der offiziellen Microsoft-Website (https://dotnet.microsoft.com/en-us/download/dotnet/6.0) herunterladen und installieren, bevor sie mit diesem Python-Paket arbeiten können. Das Vorhandensein der .NET 6.0-Laufzeitumgebung ermöglicht eine nahtlose Integration und optimale Leistung bei der Verwendung von IronPDF for Python für PDF-Verarbeitungsaufgaben.

3.1. Die Eingabeaufforderung verwenden

  1. Öffnen Sie die Eingabeaufforderung oder das Terminal auf Ihrem Computer.
  2. Um IronPDF zu installieren, verwenden Sie den folgenden Pip-Befehl:

    pip install ironpdf
    pip install ironpdf
    SHELL
  3. Warten Sie, bis die Installation abgeschlossen ist. Sie sollten eine Erfolgsmeldung sehen, die anzeigt, dass IronPDF installiert wurde.

3.2. Die Verwendung von PyCharm

  1. Öffnen Sie PyCharm IDE auf Ihrem Computer.
  2. Erstellen Sie ein neues Python-Projekt oder öffnen Sie ein bestehendes Projekt.
  3. Wenn Sie sich im Projekt befinden, klicken Sie auf "Datei" im oberen Menü und wählen Sie "Einstellungen".
  4. Navigieren Sie im Einstellungsfenster zu "Projekt: " und klicken Sie auf "Python Interpreter"
  5. Klicken Sie im Fenster des Python-Interpreters auf das Symbol "+", um ein neues Paket hinzuzufügen.
  6. Suchen Sie im Fenster "Verfügbare Pakete" nach "ironpdf"

    Ein Vergleich zwischen IronPDF for Python & PyPDF: Abbildung 5 - IronPDF

  7. Wählen Sie "ironpdf" aus der Liste und klicken Sie auf die Schaltfläche "Paket installieren".
  8. Warten Sie, bis IronPDF heruntergeladen und installiert ist. Es wird eine Erfolgsmeldung angezeigt, dass IronPDF installiert ist.

Jetzt sind beide Bibliotheken installiert und einsatzbereit. Kommen wir nun zum Vergleich selbst.

4. Erstellen von PDF-Dokumenten

4.1. Die Verwendung von PyPDF

PyPDF bietet grundlegende Funktionen zur Erstellung neuer PDF-Dateien. Das Programm verfügt jedoch nicht über eine integrierte Methode zur direkten Konvertierung von HTML-Inhalten in PDF. Um eine neue PDF-Datei mit PyPDF zu erstellen, müssen wir Inhalte zu einer bestehenden PDF-Datei hinzufügen oder eine neue leere PDF-Datei erstellen und ihr dann Text oder Bilder hinzufügen. Der folgende Code hilft dabei, diese Aufgabe der Erstellung von PDF-Dateien zu erfüllen:

from pypdf import PdfWriter, PdfReader

# Create a new PDF file
pdf_output = PdfWriter()

# Add a new blank page
page = pdf_output.add_blank_page(width=610, height=842)  # Width and height are in points (1 inch = 72 points)

# Read content from an existing PDF
with open('input.pdf', 'rb') as existing_pdf:
    existing_pdf_reader = PdfReader(existing_pdf)
    # Merge content from the first page of the existing PDF
    page.merge_page(existing_pdf_reader.pages[0])

# Save the new PDF to a file
with open('output.pdf', 'wb') as output_file:
    pdf_output.write(output_file)
from pypdf import PdfWriter, PdfReader

# Create a new PDF file
pdf_output = PdfWriter()

# Add a new blank page
page = pdf_output.add_blank_page(width=610, height=842)  # Width and height are in points (1 inch = 72 points)

# Read content from an existing PDF
with open('input.pdf', 'rb') as existing_pdf:
    existing_pdf_reader = PdfReader(existing_pdf)
    # Merge content from the first page of the existing PDF
    page.merge_page(existing_pdf_reader.pages[0])

# Save the new PDF to a file
with open('output.pdf', 'wb') as output_file:
    pdf_output.write(output_file)
PYTHON

Die Eingabedatei enthält 28 Seiten und nur die erste Seite wird in die neue PDF-Datei eingefügt. Die Ausgabe sieht wie folgt aus:

Ein Vergleich zwischen IronPDF for Python & PyPDF: Abbildung 6 - PDF-Ausgabe

4.2. Verwendung von IronPDF

IronPDF bietet erweiterte Funktionen zur Erstellung neuer PDF-Dateien direkt aus HTML-Inhalten. Dadurch wird die Erstellung dynamischer Berichte und Dokumente ohne zusätzliche Schritte erleichtert. Hier ist der Beispielcode:

import ironpdf

# Set IronPDF license key to unlock full features
ironpdf.License.LicenseKey = "YOUR-LICENSE-KEY-HERE"

# Create a PDF from an HTML string using Python
renderer = ironpdf.ChromePdfRenderer()
pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1><p>This PDF is created using IronPDF for Python</p>")

# Export to a file or stream
pdf.SaveAs("output.pdf")

# Advanced Example with HTML Assets
# Load external html assets Images, CSS, and JavaScript.
# An optional BasePath 'C:\site\assets\' is set as the file location to load assets from
myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", "C:\\site\\assets")
myAdvancedPdf.SaveAs("html-with-assets.pdf")
import ironpdf

# Set IronPDF license key to unlock full features
ironpdf.License.LicenseKey = "YOUR-LICENSE-KEY-HERE"

# Create a PDF from an HTML string using Python
renderer = ironpdf.ChromePdfRenderer()
pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1><p>This PDF is created using IronPDF for Python</p>")

# Export to a file or stream
pdf.SaveAs("output.pdf")

# Advanced Example with HTML Assets
# Load external html assets Images, CSS, and JavaScript.
# An optional BasePath 'C:\site\assets\' is set as the file location to load assets from
myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", "C:\\site\\assets")
myAdvancedPdf.SaveAs("html-with-assets.pdf")
PYTHON

Im obigen Code haben wir zunächst den Lizenzschlüssel angewendet, um die volle Leistungsfähigkeit von IronPDF nutzen zu können. Sie können die Software auch ohne Lizenzschlüssel verwenden, allerdings erscheinen dann Wasserzeichen in den erstellten PDF-Dateien. Anschließend erstellen wir zwei PDF-Dokumente, das erste mit einem HTML-String als Inhalt und das zweite mit Assets. Das Ergebnis ist wie folgt:

Ein Vergleich zwischen IronPDF for Python & PyPDF: Abbildung 7 - IronPDF-Ausgabe

5. Zusammenführen von PDF-Dateien

5.1. Die Verwendung von PyPDF

PyPDF ermöglicht das Zusammenführen mehrerer Seiten/Dokumente in ein einziges PDF durch Anhängen von Seiten aus einem PDF an ein anderes. Fügen Sie die Eingabepfade aller PDF-Dateien in der Liste hinzu und verwenden Sie die Append-Methode, um eine einzige Datei zusammenzuführen und zu erzeugen.

from pypdf import PdfWriter

merger = PdfWriter()

for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)

merger.write("merged-pdf.pdf")
merger.close()
from pypdf import PdfWriter

merger = PdfWriter()

for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)

merger.write("merged-pdf.pdf")
merger.close()
PYTHON

5.2. Verwendung von IronPDF

IronPDF bietet auch ähnliche Funktionen für die Zusammenführung von Dokumenten in ein einziges Dokument, wodurch die Konsolidierung von Inhalten aus verschiedenen PDF-Quellen erleichtert wird.

import ironpdf

ironpdf.License.LicenseKey = "YOUR-LICENSE-KEY-HERE"

html_a = """<p> [PDF_A] </p>
            <p> [PDF_A] 1st Page </p>
            <div style='page-break-after: always;'></div>
            <p> [PDF_A] 2nd Page</p>"""

html_b = """<p> [PDF_B] </p>
            <p> [PDF_B] 1st Page </p>
            <div style='page-break-after: always;'></div>
            <p> [PDF_B] 2nd Page</p>"""

renderer = ironpdf.ChromePdfRenderer()

pdfdoc_a = renderer.RenderHtmlAsPdf(html_a)
pdfdoc_b = renderer.RenderHtmlAsPdf(html_b)
merged = ironpdf.PdfDocument.Merge([pdfdoc_a, pdfdoc_b])

merged.SaveAs("Merged.pdf")
import ironpdf

ironpdf.License.LicenseKey = "YOUR-LICENSE-KEY-HERE"

html_a = """<p> [PDF_A] </p>
            <p> [PDF_A] 1st Page </p>
            <div style='page-break-after: always;'></div>
            <p> [PDF_A] 2nd Page</p>"""

html_b = """<p> [PDF_B] </p>
            <p> [PDF_B] 1st Page </p>
            <div style='page-break-after: always;'></div>
            <p> [PDF_B] 2nd Page</p>"""

renderer = ironpdf.ChromePdfRenderer()

pdfdoc_a = renderer.RenderHtmlAsPdf(html_a)
pdfdoc_b = renderer.RenderHtmlAsPdf(html_b)
merged = ironpdf.PdfDocument.Merge([pdfdoc_a, pdfdoc_b])

merged.SaveAs("Merged.pdf")
PYTHON

6. PDF-Dateien aufteilen

6.1. Die Verwendung von PyPDF

PyPDF ist eine Python-Bibliothek, die in der Lage ist, eine einzelne PDF-Datei in mehrere separate PDF-Dateien aufzuteilen, die jeweils eine oder mehrere PDF-Seiten enthalten.

from pypdf import PdfReader, PdfWriter

# Open the PDF file
pdf_file = open('input.pdf', 'rb')

# Create a PdfFileReader object
pdf_reader = PdfReader(pdf_file)

# Split each page into separate PDFs
for page_num in range(len(pdf_reader.pages)):
    pdf_writer = PdfWriter()
    pdf_writer.add_page(pdf_reader.pages[page_num])
    output_filename = f'page_{page_num + 1}_pypdf.pdf'
    with open(output_filename, 'wb') as output_file:
        pdf_writer.write(output_file)

# Close the PDF file
pdf_file.close()
from pypdf import PdfReader, PdfWriter

# Open the PDF file
pdf_file = open('input.pdf', 'rb')

# Create a PdfFileReader object
pdf_reader = PdfReader(pdf_file)

# Split each page into separate PDFs
for page_num in range(len(pdf_reader.pages)):
    pdf_writer = PdfWriter()
    pdf_writer.add_page(pdf_reader.pages[page_num])
    output_filename = f'page_{page_num + 1}_pypdf.pdf'
    with open(output_filename, 'wb') as output_file:
        pdf_writer.write(output_file)

# Close the PDF file
pdf_file.close()
PYTHON

Der obige Code teilt das 28-seitige PDF-Dokument in einzelne Seiten auf und speichert sie als 28 neue PDF-Dateien.

6.2. Verwendung von IronPDF

IronPDF bietet auch ähnliche Funktionen für die Aufteilung von PDFs, so dass Benutzer ein einzelnes PDF in mehrere PDF-Dateien aufteilen können, die jeweils eine einzelne PDF-Seite enthalten. Es ermöglicht uns, eine bestimmte Seite aus einer PDF-Datei mit mehreren Seiten herauszulösen. Der folgende Code hilft bei der Aufteilung von Dokumenten in mehrere Dateien:

import ironpdf

ironpdf.License.LicenseKey = "YOUR-LICENSE-KEY-HERE"

html = """<p> Hello Iron </p>
            <p> This is 1st Page </p>
            <div style='page-break-after: always;'></div>
            <p> This is 2nd Page</p>
            <div style='page-break-after: always;'></div>
            <p> This is 3rd Page</p>"""

renderer = ironpdf.ChromePdfRenderer()
pdf = renderer.RenderHtmlAsPdf(html)

# take the first page
page1doc = pdf.CopyPage(0)
page1doc.SaveAs("Split1.pdf")

# take the pages 2 & 3
page23doc = pdf.CopyPages(1, 2)
page23doc.SaveAs("Split2.pdf")
import ironpdf

ironpdf.License.LicenseKey = "YOUR-LICENSE-KEY-HERE"

html = """<p> Hello Iron </p>
            <p> This is 1st Page </p>
            <div style='page-break-after: always;'></div>
            <p> This is 2nd Page</p>
            <div style='page-break-after: always;'></div>
            <p> This is 3rd Page</p>"""

renderer = ironpdf.ChromePdfRenderer()
pdf = renderer.RenderHtmlAsPdf(html)

# take the first page
page1doc = pdf.CopyPage(0)
page1doc.SaveAs("Split1.pdf")

# take the pages 2 & 3
page23doc = pdf.CopyPages(1, 2)
page23doc.SaveAs("Split2.pdf")
PYTHON

Ausführlichere Informationen zu IronPDF über das Lesen von PDF-Dateien, das Drehen von PDF-Seiten, das Zuschneiden von Seiten, das Festlegen von Eigentümer-/Benutzerpasswörtern und andere Sicherheitsoptionen finden Sie auf dieser Seite IronPDF for Python-Codebeispiele.

7. Extrahieren von Text aus PDF-Dateien

7.1. Die Verwendung von PyPDF

PyPDF bietet eine unkomplizierte Methode zur Extraktion von Text aus PDF-Dateien. Sie bietet die Klasse PdfReader, mit der Benutzer den Textinhalt aus der PDF-Datei lesen können.

from pypdf import PdfReader

reader = PdfReader("input.pdf")
page = reader.pages[0]
print(page.extract_text())
from pypdf import PdfReader

reader = PdfReader("input.pdf")
page = reader.pages[0]
print(page.extract_text())
PYTHON

7.2. Verwendung von IronPDF

IronPDF unterstützt auch die Extraktion von Text aus PDF-Dateien mit Hilfe der PdfDocument-Klasse. Es bietet eine Methode namens ExtractAllText, um den Textinhalt aus der PDF-Datei zu erhalten. Die kostenlose Version von IronPDF extrahiert jedoch nur einige wenige Zeichen aus dem PDF-Dokument. Um den vollständigen Text aus PDFs zu extrahieren, muss IronPDF lizenziert werden. Hier ist das Codebeispiel zum Extrahieren von Inhalten aus PDF-Dateien:

import ironpdf

ironpdf.License.LicenseKey = "YOUR-LICENSE-KEY-HERE"

# Load existing PDF document
pdf = ironpdf.PdfDocument.FromFile("input.pdf")
# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
import ironpdf

ironpdf.License.LicenseKey = "YOUR-LICENSE-KEY-HERE"

# Load existing PDF document
pdf = ironpdf.PdfDocument.FromFile("input.pdf")
# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
PYTHON

Um mehr über die Extraktion von Text zu erfahren, besuchen Sie bitte dieses PDF Text to Python Beispiel.

8. Lizenzierung

PyPDF

PyPDF wird unter der MIT-Lizenz vertrieben, einer Open-Source-Softwarelizenz, die für ihre freizügigen Bedingungen bekannt ist. Die MIT-Lizenz erlaubt es den Nutzern, die PyPDF-Bibliothek ohne Einschränkungen zu verwenden, zu verändern, zu verbreiten und unterzulizenzieren. Die Benutzer sind nicht verpflichtet, den Quellcode ihrer Anwendungen, die PyPDF verwenden, offenzulegen, so dass es sich sowohl für private als auch für kommerzielle Projekte eignet.

Der vollständige Text der MIT-Lizenz ist in der Regel im PyPDF-Quellcode enthalten, und die Benutzer können ihn in der Datei "LICENSE" in der Distribution der Bibliothek finden. Darüber hinaus dient das GitHub-Repository von PyPDF (https://github.com/py-pdf/pypdf) als primäre Quelle für den Zugriff auf die neueste Version der Bibliothek und die damit verbundenen Lizenzinformationen.

IronPDF

IronPDF ist eine kommerzielle Bibliothek und kein Open-Source-Produkt. Sie wird von Iron Software entwickelt und vertrieben. Für die Verwendung von IronPDF ist eine gültige Lizenz von Iron Software erforderlich. Es sind verschiedene Arten von Lizenzen verfügbar, darunter Testversionen für Evaluierungszwecke und kostenpflichtige Lizenzen für die kommerzielle Nutzung.

Da IronPDF ein kommerzielles Produkt ist, bietet es im Vergleich zu Open-Source-Alternativen zusätzliche Funktionen und technischen Support. Um eine Lizenz für IronPDF zu erwerben, können Benutzer die offizielle Website besuchen, um sich über verfügbare Lizenzierungsoptionen, Preise und Supportdetails zu informieren. Das Lite-Paket beginnt mit NVIDIA_64_LICENSE und ist eine unbefristete Lizenz.

Ein Vergleich zwischen IronPDF for Python & PyPDF: Abbildung 8 - IronPDF-Lizenz

9. Fazit

Zusammenfassung

PyPDF ist eine leistungsstarke und benutzerfreundliche Python-Bibliothek für die Arbeit mit PDF-Dateien. Die Funktionen zum Lesen, Schreiben, Zusammenführen und Aufteilen von PDFs machen es zu einem unverzichtbaren Werkzeug für PDF-Bearbeitungsaufgaben. Ganz gleich, ob Sie Text aus einem PDF extrahieren, neue PDFs von Grund auf erstellen oder bestehende Dokumente zusammenführen und aufteilen müssen, PyPDF bietet eine zuverlässige und effiziente Lösung. Durch die Nutzung der Funktionen von PyPDF können Python-Entwickler ihre PDF-bezogenen Arbeitsabläufe optimieren und ihre Produktivität steigern.

IronPDF ist eine umfassende und effiziente PDF-Manipulationsbibliothek für Python, die eine breite Palette von Funktionen zum Lesen, Erstellen, Zusammenführen und Aufteilen von PDF-Dateien bietet. Egal, ob Sie dynamische PDF-Berichte generieren, Dokumentinformationen aus vorhandenen PDFs extrahieren oder mehrere Dokumente zusammenführen müssen, IronPDF bietet eine zuverlässige und benutzerfreundliche Lösung. Durch die Nutzung der Möglichkeiten von IronPDF können Python-Entwickler ihre PDF-bezogenen Arbeitsabläufe rationalisieren und ihre Produktivität steigern.

Im Gesamtvergleich ist PyPDF eine leichtgewichtige und einfach zu bedienende Bibliothek, die für grundlegende PDF-Operationen geeignet ist. Sie ist eine gute Wahl für Projekte mit einfachen PDF-Anforderungen. Andererseits bietet IronPDF eine umfangreichere API und eine robuste Leistung, wodurch es sich ideal für Projekte eignet, die erweiterte PDF-Verarbeitungsfunktionen, die Verarbeitung großer PDF-Dateien und die Durchführung komplexer Aufgaben erfordern.

Abschluss

Beide Bibliotheken bieten gute Kodierungsmöglichkeiten für gängige PDF-Aufgaben. PyPDF eignet sich für einfache Operationen und schnelle Implementierungen, während IronPDF eine umfangreichere und vielseitigere API für die Handhabung komplexer PDF-bezogener Aufgaben bietet.

In Bezug auf die Leistung ist IronPDF PyPDF wahrscheinlich überlegen, insbesondere wenn es um umfangreiche PDF-Dateien oder Aufgaben geht, die komplexe PDF-Manipulationen erfordern.

Die Wahl zwischen den beiden Bibliotheken hängt von den spezifischen Anforderungen des Projekts und der Komplexität der PDF-bezogenen Aufgaben ab.

IronPDF steht auch für eine kostenlose Testversion zur Verfügung, um die vollständige Funktionalität im kommerziellen Modus zu testen. Laden Sie IronPDF for Python von hier herunter.

(PyPDF, .NET-Bibliothek, PDF-Bibliotheken und IronPDF sind eingetragene Marken der jeweiligen Eigentümer. Diese Website steht in keiner Verbindung zu PyPDF, der .NET-Bibliothek, den PDF-Bibliotheken oder IronPDF und wird auch nicht von diesen unterstützt oder gesponsert. Alle Produktnamen, Logos und Marken sind Eigentum ihrer jeweiligen Eigentümer. Vergleiche dienen nur zu Informationszwecken und spiegeln öffentlich zugängliche Informationen zum Zeitpunkt des Schreibens wider.)}]

Häufig gestellte Fragen

Was sind die Hauptunterschiede zwischen PyPDF und IronPDF für PDF-Manipulation in Python?

PyPDF ist eine reine Python-Bibliothek, die grundlegende Funktionen zur PDF-Manipulation wie Lesen, Schreiben und Zusammenführen von PDFs bietet. Im Gegensatz dazu basiert IronPDF auf der IronPDF .NET-Bibliothek und bietet erweiterte Funktionen wie HTML-zu-PDF-Konvertierung, Formularverarbeitung und leistungsstarke Operationen für komplexe PDF-Aufgaben.

Wie kann ich HTML in PDF in Python konvertieren?

Sie können HTML in Python mit IronPDF in PDF umwandeln. Es bietet Methoden wie RenderHtmlAsPdf, um HTML-Strings zu konvertieren, und RenderHtmlFileAsPdf, um HTML-Dateien in PDFs zu konvertieren.

Was sind die Installationsanforderungen für die Verwendung von IronPDF in einem Python-Projekt?

Um IronPDF mit Python zu verwenden, müssen Sie die .NET 6.0-Laufzeit auf Ihrem System installiert haben. IronPDF kann über pip mit dem Befehl pip install ironpdf installiert werden.

Ist es möglich, Text und Bilder aus PDFs mit PyPDF zu extrahieren?

Ja, PyPDF ermöglicht die Extraktion von Text und Bildern aus PDFs. Es ist für grundlegende Aufgaben der PDF-Manipulation konzipiert, wie Textextraktion, Zusammenführen und Aufteilen von PDFs.

Was sind die Vorteile der Verwendung von IronPDF für komplexe PDF-Operationen?

IronPDF bietet eine robuste Leistung und umfangreiche Funktionen für komplexe PDF-Operationen, einschließlich HTML-zu-PDF-Konvertierung, Formularverarbeitung, fortgeschrittener Text- und Bildmanipulation sowie hoher Leistung bei großen Dateien.

Kann ich PDF-Dateien mit IronPDF zusammenführen und trennen?

Ja, IronPDF bietet Funktionen zum effizienten Zusammenführen und Aufteilen von PDF-Dateien und stellt eine umfassende Lösung für das Management komplexer PDF-Operationen innerhalb von Python-Anwendungen bereit.

Was sind häufige Anwendungsfälle für die Verwendung von PDFs in verschiedenen Branchen?

PDFs werden häufig für das Teilen von Dokumenten wie Berichten, Rechnungen, Formularen und E-Books in verschiedenen Branchen verwendet, da sie eine konsistente Darstellung auf verschiedenen Plattformen und Geräten bieten.

Welche Lizenzoptionen gibt es für IronPDF?

IronPDF ist ein kommerzielles Produkt, das eine gültige Lizenz von Iron Software erfordert. Verschiedene Lizenzoptionen sind verfügbar, einschließlich Testversionen, um unterschiedlichen Projektanforderungen gerecht zu werden.

Curtis Chau
Technischer Autor

Curtis Chau hat einen Bachelor-Abschluss in Informatik von der Carleton University und ist spezialisiert auf Frontend-Entwicklung mit Expertise in Node.js, TypeScript, JavaScript und React. Leidenschaftlich widmet er sich der Erstellung intuitiver und ästhetisch ansprechender Benutzerschnittstellen und arbeitet gerne mit modernen Frameworks sowie der Erstellung gut strukturierter, optisch ansprechender ...

Weiterlesen