from ironpdf import *
# Instantiate Renderer
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>")
# Export to a file or Stream
pdf.SaveAs("output.pdf")
# Advanced Example with HTML Assets
# Load external html assets: Images, CSS and JavaScript.
# An optional BasePath 'C:\site\assets\' is set as the file location to load assets from
myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", r"C:\site\assets")
myAdvancedPdf.SaveAs("html-with-assets.pdf")
Python ist eine leistungsstarke Sprache für die Datenanalyse und das maschinelle Lernen, aber der Umgang mit großen Datensätzen kann eine Herausforderung für die Datenanalyse darstellen. Hier kommt Dask ins Spiel. Dask ist eine Open-Source-Bibliothek, die fortschrittliche Parallelisierung für Analysen bietet und eine effiziente Berechnung großer Datensätze ermöglicht, die die Speicherkapazität einer einzelnen Maschine überschreiten. In diesem Artikel werden wir die grundlegende Verwendung der Dask-Bibliothek und einer weiteren sehr interessanten PDF-Generierungsbibliothek namens IronPDF von Iron Software zur Erstellung von PDF-Dokumenten betrachten.
Warum Dask verwenden?
Dask ist darauf ausgelegt, Ihren Python-Code von einem einzelnen Laptop auf ein großes Cluster zu skalieren. Es lässt sich nahtlos in gängige Python-Bibliotheken wie NumPy, pandas und scikit-learn integrieren, um eine parallele Ausführung ohne wesentliche Codeänderungen zu ermöglichen.
Hauptmerkmale von Dask
Parallel Computing: Dask ermöglicht die gleichzeitige Ausführung mehrerer Aufgaben, was die Berechnungen erheblich beschleunigt.
Skalierbarkeit: Es kann Datensätze verarbeiten, die größer als der Arbeitsspeicher sind, indem es sie in kleinere Teile aufteilt und parallel verarbeitet.
Kompatibilität: Funktioniert gut mit bestehenden Python-Bibliotheken und lässt sich leicht in Ihren aktuellen Arbeitsablauf integrieren.
Flexibilität: Bietet hochrangige Sammlungen wie Dask DataFrame, Aufgaben-Diagramme, Dask Array, Dask Cluster und Dask Bag, die jeweils pandas, NumPy und Listen nachahmen.
Erste Schritte mit Dask
Einrichtung
Sie können Dask mit pip installieren:
pip install dask[complete]
pip install dask[complete]
SHELL
Grundlegende Verwendung
Hier ist ein einfaches Beispiel, das zeigt, wie Dask Berechnungen parallelisieren kann:
import dask.array as da
# Create a large Dask array
x = da.random.random((10, 10), chunks=(10, 10))
print('Gneerated Input')
print(x.compute())
# Perform a computation
result = x.mean().compute()
print('Gneerated Mean')
print(result)
py
PYTHON
In diesem Beispiel erstellt Dask ein großes Array und unterteilt es in kleinere Teile. Die Methode compute() löst die parallele Berechnung aus und gibt das Ergebnis zurück. Der Task-Graph wird intern verwendet, um parallele Berechnungen in Python Dask zu ermöglichen.
Ausgabe
Dask DataFrames
Dask DataFrames ähneln den Pandas DataFrames, sind aber für den Umgang mit größeren Datensätzen als dem Arbeitsspeicher konzipiert. Hier ist ein Beispiel:
Der Code zeigt, dass Dask in der Lage ist, Zeitreihendaten zu verarbeiten, synthetische Datensätze zu erzeugen und Aggregationen wie stündliche Mittelwerte effizient zu berechnen, indem es seine Parallelverarbeitungsfähigkeiten nutzt. Mehrere Python-Prozesse, ein verteilter Scheduler und Rechenressourcen mit mehreren Kernen werden verwendet, um die parallele Berechnung in Python Dask DataFrames zu erreichen.
Ausgabe
Bewährte Praktiken
Klein anfangen: Beginnen Sie mit kleinen Datensätzen, um zu verstehen, wie Dask funktioniert, bevor Sie es skalieren.
Verwenden Sie das Dashboard: Dask bietet ein Dashboard, um den Fortschritt und die Leistung Ihrer Berechnungen zu überwachen.
Optimieren von Chunk-Größen: Wählen Sie geeignete Chunk-Größen, um den Speicherverbrauch und die Rechengeschwindigkeit auszugleichen.
Einführung in IronPDF
IronPDF ist eine leistungsstarke Python-Bibliothek, die zum Erstellen, Bearbeiten und Signieren von PDF-Dokumenten mithilfe von HTML, CSS, Bildern und JavaScript entwickelt wurde. Der Schwerpunkt liegt auf effizienter Leistung bei minimalem Speicherverbrauch. Die wichtigsten Merkmale sind:
HTML-zu-PDF-Konvertierung: HTML-Dateien, Strings und URLs mühelos in PDF-Dokumente umwandeln, indem Sie die PDF-Rendering-Funktionen von Chrome nutzen.
Plattformübergreifende Unterstützung: Funktioniert nahtlos mit Python 3+ auf Windows, Mac, Linux und verschiedenen Cloud-Plattformen. Es ist auch mit .NET-, Java-, Python- und Node.js-Umgebungen kompatibel.
Bearbeiten und Signieren: Passen Sie PDF-Eigenschaften an, wenden Sie Sicherheitsmaßnahmen wie Passwörter und Berechtigungen an und fügen Sie nahtlos digitale Signaturen hinzu.
Seitenschablonen und Einstellungen: Passen Sie PDF-Layouts mit Kopf- und Fußzeilen, Seitennummern, einstellbaren Rändern, benutzerdefinierten Papiergrößen und responsiven Designs an.
Standardkonformität: Strikte Einhaltung von PDF-Standards wie PDF/A und PDF/UA, um die Kompatibilität der Zeichenkodierung UTF-8 sicherzustellen. Die effiziente Verwaltung von Assets wie Bildern, CSS-Stylesheets und Schriftarten wird ebenfalls unterstützt.
Einrichtung
pip install ironpdf
pip install dask
pip install ironpdf
pip install dask
SHELL
Erzeugen von PDF-Dokumenten mit IronPDF und Dask.
Voraussetzungen
Stellen Sie sicher, dass Visual Studio Code installiert ist
Python Version 3 ist installiert
Erstellen wir zunächst eine Python-Datei, um unsere Skripte hinzuzufügen
Öffnen Sie Visual Studio Code und erstellen Sie eine Datei, daskDemo.py.
Installieren Sie die erforderlichen Bibliotheken:
pip install dask
pip install ironpdf
pip install dask
pip install ironpdf
SHELL
Fügen Sie dann den folgenden Python-Code ein, um die Verwendung der Python-Pakete IronPDF und Dask zu demonstrieren
import dask
from ironpdf import *
# Apply your license key
License.LicenseKey = "key"
df = dask.datasets.timeseries()
print('\n\nGenerated DataFrame')
print(df.head(10))
print('\n\nComputed Mean Hourly DataFrame')
dfmean = df[["x", "y"]].resample("1h").mean().head(10)
print(dfmean)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with Dask</h1>"
content += "<h2>Generated DataFrame (First 10)</h2>"
rows = df.head(10)
for i in range(10):
row = df.head(10).iloc[i]
content += f"<p>{str(row[0])}, {str(row[2])}, {str(row[3])}</p>"
content += "<h2>Computed Mean Hourly DataFrame (First 10)</h2>"
for i in range(10):
row = dfmean.head(10).iloc[i]
content += f"<p>{str(row[0])}</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("DemoIronPDF-Dask.pdf")
py
PYTHON
Code Erläuterung
Dieses Code-Snippet integriert Dask für die Datenverarbeitung und IronPDF für die PDF-Erzeugung. Sie demonstriert:
Dask-Integration: Verwendet `dask.datasets.timeseries()`, um ein synthetisches Timeseries-DataFrame (`df`) zu generieren. Gibt die ersten 10 Zeilen aus (`df.head(10)`) und berechnet den stündlichen Mittelwert des DataFrames (`dfmean`) basierend auf den Spalten "x" und "y".
IronPDF-Nutzung: Setzt den IronPDF-Lizenzschlüssel mit `License.LicenseKey`. Erstellt einen HTML-String (`content`), der Header und Daten aus den erzeugten und berechneten DataFrames enthält.
Rendert diesen HTML-Inhalt in ein PDF (`pdf`) mithilfe von `ChromePdfRenderer()`.
Speichert die PDF-Datei als "DemoIronPDF-Dask.pdf".
Dieser Code kombiniert die Fähigkeiten von Dask zur umfangreichen Datenmanipulation mit den Funktionen von IronPDF zur Umwandlung von HTML-Inhalten in ein PDF-Dokument.
Ausgabe
PDF
IronPDF-Lizenz
IronPDF-Lizenzschlüssel, um den Benutzern zu ermöglichen, die umfangreichen Funktionen vor dem Kauf auszuprobieren.
Platzieren Sie den Lizenzschlüssel am Anfang des Skripts, bevor Sie das IronPDF-Paket verwenden:
from ironpdf import *
# Apply your license key
License.LicenseKey = "key"
py
PYTHON
Schlussfolgerung
Dask ist ein vielseitiges Tool, das Ihre Datenverarbeitungsfähigkeiten in Python erheblich verbessern kann. Durch die Möglichkeit des parallelen und verteilten Rechnens können Sie effizient mit großen Datenmengen arbeiten und sich nahtlos in Ihr bestehendes Python-Ökosystem integrieren. IronPDF ist eine leistungsstarke Python-Bibliothek zur Erstellung und Bearbeitung von PDF-Dokumenten mit HTML, CSS, Bildern und JavaScript. Es bietet Funktionen wie HTML-zu-PDF-Konvertierung, PDF-Bearbeitung, digitales Signieren und plattformübergreifende Unterstützung, wodurch es sich für verschiedene Aufgaben der Dokumentenerstellung und -verwaltung in Python-Anwendungen eignet.
Zusammen mit den beiden Bibliotheken können die Datenwissenschaftler fortschrittliche Datenanalysen und Datenwissenschaftstätigkeiten durchführen. Dann speichern Sie die Ausgabeergebnisse mit IronPDF im Standard-PDF-Format.
Chaknith arbeitet an IronXL und IronBarcode. Er hat tiefgehende Expertise in C# und .NET und hilft, die Software zu verbessern und Kunden zu unterstützen. Seine Erkenntnisse aus Benutzerinteraktionen tragen zu besseren Produkten, Dokumentation und einem insgesamt besseren Erlebnis bei.
< PREVIOUS kryptographie Python (Wie es für Entwickler funktioniert)
NÄCHSTES > Wand Python (Wie es für Entwickler funktioniert)