Test in einer Live-Umgebung
Test in der Produktion ohne Wasserzeichen.
Funktioniert überall, wo Sie es brauchen.
PDFs (Portable Document Format) sind ein weit verbreitetes Dateiformat für die Beibehaltung des Layouts und der Formatierung von Dokumentinformationen über verschiedene Plattformen hinweg. Sie erfreuen sich in verschiedenen Branchen großer Beliebtheit, da sie unabhängig von dem Gerät oder Betriebssystem, mit dem sie geöffnet werden, ein einheitliches Erscheinungsbild aufweisen. PDFs werden häufig für die Weitergabe von Berichten, Rechnungen, Formularen, E-Books, benutzerdefinierten Daten und anderen wichtigen Dokumenten verwendet.
Die Arbeit mit PDF-Dateien in Python ist ein wichtiger Aspekt vieler Projekte geworden. Python bietet mehrere Bibliotheken, die die Bearbeitung von PDF-Dateien vereinfachen und das Extrahieren von Informationen, das Erstellen neuer Dokumente, das Zusammenführen oder Aufteilen bestehender Dokumente und andere PDF-bezogene Aufgaben erleichtern.
In diesem Artikel werden wir einen umfassenden Vergleich von zwei renommierten Python-Bibliotheken zur Bearbeitung von PDF-Dateien durchführen: PyPDF und IronPDF. Durch die Bewertung der Funktionen und Möglichkeiten beider Bibliotheken möchten wir Entwicklern wertvolle Erkenntnisse vermitteln, die ihnen helfen sollen, eine bewusste Entscheidung darüber zu treffen, welche der beiden Bibliotheken am besten zu den Anforderungen ihrer spezifischen Softwareanwendung passt.
Diese Bibliotheken bieten robuste Werkzeuge, um die Arbeit mit PDFs zu rationalisieren und ermöglichen es Entwicklern, PDF-Dokumente in ihren Python-Anwendungen effizient zu verarbeiten. Lassen Sie uns also in den Vergleich eintauchen und die Stärken der einzelnen Bibliotheken untersuchen, um Ihre Aufgaben im Zusammenhang mit PDF zu erleichtern.
PyPDF ist eine reine Python PDF-Bibliothek, die grundlegende Funktionen zum Lesen, Schreiben, Entschlüsseln von PDF-Dateien und Manipulieren von PDF-Dokumenten bietet. Es ermöglicht Entwicklern, Text und Bilder aus PDFs zu extrahieren, mehrere PDF-Dateien zusammenzuführen, große PDFs in kleinere aufzuteilen und vieles mehr. PyPDF ist für seine Einfachheit und Benutzerfreundlichkeit bekannt, was es zu einer geeigneten Wahl für unkomplizierte PDF-Aufgaben macht.
Es bietet umfassende Funktionen für die Arbeit mit PDF-Dokumenten und ist damit eine ausgezeichnete Wahl für eine Vielzahl von Aufgaben im Zusammenhang mit PDF.
PyPDF ist eine Python PDF-Bibliothek, die folgende Funktionen bietet:
IronPDF ist eine umfassende PDF-Manipulationsbibliothek für Python, die auf der IronPDF for .NET-Bibliothek aufbaut. Es bietet eine leistungsstarke API mit erweiterten Funktionen, wie z. B. die Konvertierung von HTML in PDF, die Bearbeitung von PDF-Anmerkungen und Formularfeldern sowie die effiziente Durchführung komplexer PDF-Operationen. IronPDF wird bevorzugt für Projekte eingesetzt, die eine robuste PDF-Verarbeitung, hohe Leistung und umfangreiche Funktionsunterstützung erfordern.
IronPDF ist eine Python-PDF-Bibliothek, mit der sich PDF-Verarbeitungsaufgaben nahtlos erledigen lassen. Es bietet eine zuverlässige und funktionsreiche Lösung zur PDF-Bearbeitung für Python-Entwickler. Mit IronPDF können Sie mühelos Inhalte aus mehreren Seiten einer PDF-Datei generieren, ändern und extrahieren, was es zu einer hervorragenden Wahl für verschiedene PDF-bezogene Anwendungen macht.
Hier sind einige herausragende Merkmale von IronPDF:
Hohe Leistung: IronPDF baut auf der .NET-Bibliothek von IronPDF auf und bietet hohe Leistung und Effizienz bei der Bearbeitung großer PDF-Dateien und komplexer Vorgänge.
Der Artikel lautet nun wie folgt:
Ein Python-Projekt erstellen
PyPDF-Installation
IronPDF-Installation
PDF-Dokumente erstellen
Zusammenführen von PDF-Dateien
PDF-Dateien aufteilen
Extrahieren von Text aus PDF-Dateien
Lizenzvergabe
Verwendung einer Integrierten Entwicklungsumgebung (IDE) für Python-Projekte kann die Produktivität erheblich steigern. Ich werde PyCharm verwenden, da es sich durch intelligente Code-Vervollständigung, leistungsstarkes Debugging und nahtlose Integration mit Versionskontrollsystemen auszeichnet. Wenn Sie das Programm nicht installiert haben, können Sie es von der JetBrains-Website herunterladen (https://www.jetbrains.com/pycharm/)oder Sie können jede IDE/Texteditor für Python-Programme wie VS Code verwenden.
So erstellen Sie ein Python-Projekt in PyCharm:
Starten Sie PyCharm und klicken Sie auf "Neues Projekt erstellen" auf dem PyCharm-Willkommensbildschirm oder wählen Sie Datei > Neues Projekt im Menü.
Wählen Sie den Python-Interpreter. Wenn Sie noch keinen Dolmetscher eingerichtet haben, klicken Sie auf das Zahnradsymbol und konfigurieren Sie einen neuen Dolmetscher.
Wählen Sie den Projektstandort und die Vorlage aus.
Geben Sie den Projektnamen und die Einstellungen an, und klicken Sie dann auf Erstellen.
PyPDF, eine reine Python-Bibliothek, kann auf mehrere Arten installiert werden. Wir können es sowohl mit Command Prompt als auch mit PyCharm installieren.
Öffnen Sie die Eingabeaufforderung oder das Terminal auf Ihrem Computer.
:ProductInstall
Warten Sie, bis die PyPDF-Installation abgeschlossen ist. Sie sollten eine Erfolgsmeldung sehen, die anzeigt, dass PyPDF installiert wurde.
Sie können den gleichen Prozess verwenden, um PyPDF in PyCharm Terminal zu installieren.
Hinweis: Python muss zur Umgebungsvariablen System PATH hinzugefügt werden.
Öffnen Sie die PyCharm IDE.
Erstellen Sie ein neues Python-Projekt oder öffnen Sie ein bestehendes Projekt.
Wenn Sie sich im Projekt befinden, klicken Sie im oberen Menü auf Datei und wählen Sie Einstellungen.
Navigieren Sie im Einstellungsfenster zu "Projekt:
Klicken Sie im Fenster des Python-Interpreters auf das Symbol "+", um ein neues Paket hinzuzufügen.
Suchen Sie im Fenster "Verfügbare Pakete" nach "PyPDF"
Wählen Sie "PyPDF" aus der Liste und klicken Sie auf die Schaltfläche "Paket installieren".
IronPDF for Python nutzt die leistungsstarke .NET 6.0-Technologie als Grundlage. Um IronPDF for Python effektiv nutzen zu können, muss daher unbedingt die .NET 6.0 Runtime auf Ihrem System installiert sein. Linux- und Mac-Benutzer müssen möglicherweise .NET von der offiziellen Microsoft-Website herunterladen und installieren (https://dotnet.microsoft.com/en-us/download/dotnet/6.0) bevor Sie mit diesem Python-Paket weiterarbeiten. Das Vorhandensein der .NET 6.0-Laufzeitumgebung ermöglicht eine nahtlose Integration und optimale Leistung bei der Verwendung von IronPDF for Python für PDF-Verarbeitungsaufgaben.
Öffnen Sie die Eingabeaufforderung oder das Terminal auf Ihrem Computer.
:PackageInstall
Öffnen Sie die PyCharm IDE auf Ihrem Computer.
Erstellen Sie ein neues Python-Projekt oder öffnen Sie ein bestehendes Projekt.
Wenn Sie sich im Projekt befinden, klicken Sie im oberen Menü auf "Datei" und wählen Sie "Einstellungen".
Navigieren Sie im Einstellungsfenster zu "Projekt:
Klicken Sie im Fenster des Python-Interpreters auf das Symbol "+", um ein neues Paket hinzuzufügen.
Suchen Sie im Fenster "Verfügbare Pakete" nach "ironpdf
"
Wählen Sie "ironpdf
" aus der Liste und klicken Sie auf die Schaltfläche "Paket installieren".
Warten Sie, bis IronPDF heruntergeladen und installiert ist. Es wird eine Erfolgsmeldung angezeigt, dass IronPDF installiert ist.
Nun sind beide Bibliotheken installiert und einsatzbereit. Kommen wir nun zum eigentlichen Vergleich.
PyPDF bietet grundlegende Funktionen zur Erstellung neuer PDF-Dateien. Es verfügt jedoch nicht über eine integrierte Methode zur direkten Konvertierung von HTML-Inhalten in PDF. Um eine neue PDF-Datei mit PyPDF zu erstellen, müssen wir Inhalte zu einer bestehenden PDF-Datei hinzufügen oder eine neue leere PDF-Datei erstellen und ihr dann Text oder Bilder hinzufügen. Der folgende Code hilft, diese Aufgabe der Erstellung von PDF-Dateien zu erfüllen:
from pypdf import PdfWriter, PdfReader
# Create a new PDF file
pdf_output = PdfWriter()
# Add a new blank page
page = pdf_output.add_blank_page(width=610, height=842) # Width and height are in points (1 inch = 72 points)
# Read content from an existing PDF
with open('input.pdf', 'rb') as existing_pdf:
existing_pdf_reader = PdfReader(existing_pdf)
# Merge content from the first page of the existing PDF
page.merge_page(existing_pdf_reader.pages [0])
# Save the new PDF to a file
with open('output.pdf', 'wb') as output_file:
pdf_output.write(output_file)
Die Eingabedatei enthält 28 Seiten und nur die erste Seite wird der neuen PDF-Datei hinzugefügt. Die Ausgabe sieht wie folgt aus:
IronPDF bietet erweiterte Funktionen zur Erstellung neuer PDF-Dateien direkt aus HTML-Inhalten. So lassen sich dynamische Berichte und Dokumente ohne zusätzliche Schritte erstellen. Hier ist der Beispielcode:
import ironpdf
ironpdf.License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
# Create a PDF from a HTML string using Python
pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1><p>This PDF is created using IronPDF for Python</p>")
# Export to a file or Stream
pdf.SaveAs("output.pdf")
# Advanced Example with HTML Assets
# Load external html assets Images, CSS and JavaScript.
# An optional BasePath 'C\site\assets\' is set as the file location to load assets from
myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", "C:\site\assets")
myAdvancedPdf.SaveAs("html-with-assets.pdf")
Im obigen Code haben wir zunächst den Lizenzschlüssel angewendet, um die volle Leistungsfähigkeit von IronPDF zu nutzen. Sie können das Programm auch ohne Lizenzschlüssel verwenden, allerdings erscheinen dann Wasserzeichen in den erstellten PDF-Dateien. Dann erstellen wir zwei PDF-Dokumente, das erste mit einem HTML-String als Inhalt und das zweite mit Assets. Die Ausgabe lautet wie folgt:
PyPDF ermöglicht das Zusammenführen mehrerer Seiten/Dokumente in ein einziges PDF durch Anhängen von Seiten aus einem PDF an ein anderes. Fügen Sie die Eingabepfade aller PDF-Dateien in der Liste hinzu und verwenden Sie die Append-Methode, um eine einzige Datei zu erstellen.
from pypdf import PdfWriter
merger = PdfWriter()
for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
merger.append(pdf)
merger.write("merged-pdf.pdf")
merger.close()
IronPDF bietet auch ähnliche Funktionen für die Zusammenführung von Dokumenten in ein einziges Dokument, wodurch die Konsolidierung von Inhalten aus verschiedenen PDF-Quellen erleichtert wird.
import ironpdf
ironpdf.License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
html_a = """<p> [PDF_A] </p>
<p> [PDF_A] 1st Page </p>
<div style='page-break-after: always;'></div>
<p> [PDF_A] 2nd Page</p>"""
html_b = """<p> [PDF_B] </p>
<p> [PDF_B] 1st Page </p>
<div style='page-break-after: always;'></div>
<p> [PDF_B] 2nd Page</p>"""
renderer = ironpdf.ChromePdfRenderer()
pdfdoc_a = renderer.RenderHtmlAsPdf(html_a)
pdfdoc_b = renderer.RenderHtmlAsPdf(html_b)
merged = PdfDocument.Merge(pdfdoc_a, pdfdoc_b)
merged.SaveAs("Merged.pdf")
PyPDF ist eine Python-Bibliothek, die ein einzelnes PDF in mehrere separate PDFs aufteilen kann, die jeweils eine oder mehrere PDF-Seiten enthalten.
from pypdf import PdfReader, PdfWriter
# Open the PDF file
pdf_file = open('input.pdf', 'rb')
# Create a PdfFileReader object
pdf_reader = PdfReader(pdf_file)
# Split each page into separate PDFs
for page_num in range(len(pdf_reader.pages)):
pdf_writer = PdfWriter()
pdf_writer.add_page(pdf_reader.pages [page_num])
output_filename = f'page_{page_num + 1}_pypdf.pdf'
with open(output_filename, 'wb') as output_file:
pdf_writer.write(output_file)
# Close the PDF file
pdf_file.close()
Der obige Code teilt das 28-seitige PDF-Dokument auf, um es in einzelne Seiten aufzuteilen und als 28 neue PDF-Dateien zu speichern.
IronPDF bietet auch ähnliche Funktionen für die Aufteilung von PDFs, die es dem Benutzer ermöglichen, ein einzelnes PDF in mehrere PDF-Dateien zu unterteilen, die jeweils eine einzelne PDF-Seite enthalten. Es ermöglicht uns, eine bestimmte Seite aus einem PDF mit mehreren Seiten zu teilen. Der folgende Code hilft bei der Aufteilung von Dokumenten in mehrere Dateien:
import ironpdf
ironpdf.License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
html = """<p> Hello Iron </p>
<p> This is 1st Page </p>
<div style='page-break-after: always;'></div>
<p> This is 2nd Page</p>
<div style='page-break-after: always;'></div>
<p> This is 3rd Page</p>"""
renderer = ironpdf.ChromePdfRenderer()
pdf = renderer.RenderHtmlAsPdf(html)
# take the first page
page1doc = pdf.CopyPage(0)
page1doc.SaveAs("Split1.pdf")
# take the pages 2 & 3
page23doc = pdf.CopyPages(1, 2)
page23doc.SaveAs("Split2.pdf")
Ausführliche Informationen zu IronPDF über das Lesen von PDF-Dateien, das Drehen von PDF-Seiten, das Beschneiden von Seiten, das Festlegen von Eigentümer-/Benutzerpasswörtern und andere Sicherheitsoptionen finden Sie hier IronPDF for Python Code Beispiele Seite.
PyPDF bietet eine einfache Methode zur Extraktion von Text aus PDFs. Es bietet die Klasse PdfReader
, die es dem Benutzer ermöglicht, den Textinhalt aus der PDF-Datei zu lesen.
from pypdf import PdfReader
reader = PdfReader("input.pdf")
page = reader.pages [0]
print(page.extract_text())
IronPDF unterstützt auch die Extraktion von Text aus PDFs mit Hilfe der Klasse PdfDocument
. Es bietet eine Methode namens ExtractAllText
, um den Textinhalt aus der PDF-Datei zu erhalten. Allerdings extrahiert die kostenlose Version von IronPDF nur wenige Zeichen aus dem PDF-Dokument. Um Volltext aus PDFs zu extrahieren, muss IronPDF lizenziert werden. Hier ist das Codebeispiel zum Extrahieren von Inhalten aus PDF-Dateien:
import ironpdf
ironpdf.License.LicenseKey = "YOUR-LICENSE-KEY-HERE"
# Load existing PDF document
pdf = ironpdf.PdfDocument.FromFile("input.pdf")
# Extract text from PDF document
all_text = pdf.ExtractAllText()
print(all_text)
Um mehr über das Extrahieren von Text zu erfahren, besuchen Sie bitte diese Seite PDF Text zu Python beispiel.
PyPDF wird unter der MIT-Lizenz vertrieben, einer Open-Source-Softwarelizenz, die für ihre freizügigen Bedingungen bekannt ist. Die MIT-Lizenz erlaubt es den Nutzern, die PyPDF-Bibliothek ohne Einschränkungen zu verwenden, zu verändern, zu verbreiten und unterzulizenzieren. Die Benutzer müssen den Quellcode ihrer Anwendungen, die PyPDF verwenden, nicht offenlegen, so dass es sich sowohl für private als auch für kommerzielle Projekte eignet.
Der vollständige Text der MIT-Lizenz ist in der Regel im PyPDF-Quellcode enthalten und kann in der Datei "LICENSE" in der Distribution der Bibliothek gefunden werden. Außerdem ist das PyPDF GitHub-Repository (https://github.com/py-pdf/pypdf) dient als Hauptquelle für den Zugriff auf die neueste Version der Bibliothek und die damit verbundenen Lizenzinformationen.
IronPDF ist eine kommerzielle Bibliothek und nicht Open-Source. Es wird von Iron Software LLC entwickelt und vertrieben. Die Verwendung von IronPDF erfordert eine gültige Lizenz von Iron Software. Es sind verschiedene Arten von Lizenzen erhältlich, darunter Testversionen für Evaluierungszwecke und kostenpflichtige Lizenzen für die kommerzielle Nutzung.
Da IronPDF ein kommerzielles Produkt ist, bietet es im Vergleich zu Open-Source-Alternativen zusätzliche Funktionen und technischen Support. Um eine Lizenz für IronPDF zu erhalten, können Benutzer die offizielle Website von Iron Software besuchen (https://ironpdf.com/python/licensing/) um sich über die verfügbaren Lizenzierungsoptionen, Preise und Supportdetails zu informieren. Das Lite-Paket beginnt bei $749 und ist eine unbefristete Lizenz.
PyPDF ist eine leistungsstarke und benutzerfreundliche Python-Bibliothek für die Arbeit mit PDF-Dateien. Seine Funktionen zum Lesen, Schreiben, Zusammenführen und Aufteilen von PDFs machen es zu einem unverzichtbaren Werkzeug für PDF-Bearbeitungsaufgaben. Ob Sie nun Text aus einem PDF extrahieren, neue PDFs von Grund auf erstellen oder bestehende Dokumente zusammenführen und aufteilen müssen, PyPDF bietet eine zuverlässige und effiziente Lösung. Durch die Nutzung der Funktionen von PyPDF können Python-Entwickler ihre PDF-bezogenen Arbeitsabläufe rationalisieren und ihre Produktivität steigern.
IronPDF ist eine umfassende und effiziente PDF-Manipulationsbibliothek für Python, die eine breite Palette von Funktionen zum Lesen, Erstellen, Zusammenführen und Aufteilen von PDF-Dateien bietet. Ganz gleich, ob Sie dynamische PDF-Berichte erstellen, Dokumentinformationen aus vorhandenen PDFs extrahieren oder mehrere Dokumente zusammenführen möchten, IronPDF bietet eine zuverlässige und benutzerfreundliche Lösung. Durch die Nutzung der Möglichkeiten von IronPDF können Python-Entwickler ihre PDF-bezogenen Arbeitsabläufe rationalisieren und ihre Produktivität steigern.
Im Gesamtvergleich ist PyPDF eine leichtgewichtige und einfach zu bedienende Bibliothek, die für grundlegende PDF-Operationen geeignet ist. Es ist eine gute Wahl für Projekte mit einfachen PDF-Anforderungen. Andererseits bietet IronPDF eine umfangreichere API und eine robuste Leistung, wodurch es sich ideal für Projekte eignet, die erweiterte PDF-Verarbeitungsfunktionen, die Verarbeitung großer PDF-Dateien und die Durchführung komplexer Aufgaben erfordern.
Beide Bibliotheken bieten gute Kodierungsmöglichkeiten für gängige PDF-Aufgaben. PyPDF eignet sich für einfache Operationen und schnelle Implementierungen, während IronPDF eine umfangreichere und vielseitigere API für die Handhabung komplexer PDF-bezogener Aufgaben bietet.
In Bezug auf die Leistung ist IronPDF PyPDF wahrscheinlich überlegen, insbesondere wenn es um umfangreiche PDF-Dateien oder Aufgaben geht, die komplexe PDF-Manipulationen erfordern.
Die Wahl zwischen den beiden Bibliotheken hängt von den spezifischen Anforderungen des Projekts und der Komplexität der PDF-bezogenen Aufgaben ab.
IronPDF ist auch erhältlich für eine kostenloser Test um seine vollständige Funktionalität im kommerziellen Modus zu testen. IronPDF for Python herunterladen von hier.
9 .NET API-Produkte für Ihre Bürodokumente