Test in einer Live-Umgebung
Test in der Produktion ohne Wasserzeichen.
Funktioniert überall, wo Sie es brauchen.
Python ist eine leistungsstarke Sprache für die Datenanalyse und das maschinelle Lernen, aber der Umgang mit großen Datensätzen kann eine Herausforderung für die Datenanalyse darstellen. Dies ist der Ort, an dem*Dask**** kommt rein. Dask ist eine Open-Source-Bibliothek, die fortschrittliche Parallelisierung für Analysen bietet und effiziente Berechnungen auf großen Datensätzen ermöglicht, die die Speicherkapazität einer einzelnen Maschine übersteigen. In diesem Artikel befassen wir uns mit der grundlegenden Nutzung der Dask-Bibliothek und einer weiteren sehr interessanten Bibliothek zur PDF-Erzeugung namensIronPDF vonIron Software um PDF-Dokumente zu erzeugen.
*Daskwurde entwickelt, um Ihren Python-Code von einem einzelnen Laptop bis zu einem großen Cluster zu skalieren. Es lässt sich nahtlos in gängige Python-Bibliotheken wie NumPy, pandas und scikit-learn integrieren, um eine parallele Ausführung ohne wesentliche Codeänderungen zu ermöglichen.
Paralleles Rechnen: Mit Dask können Sie mehrere Aufgaben gleichzeitig ausführen, was die Berechnungen erheblich beschleunigt.
Skalierbarkeit: Es kann Datenmengen verarbeiten, die größer sind als der Arbeitsspeicher, indem es sie in kleinere Teile zerlegt und parallel verarbeitet.
Kompatibilität: Funktioniert gut mit bestehenden Python-Bibliotheken und lässt sich daher leicht in Ihren aktuellen Arbeitsablauf integrieren.
Sie können Dask mit pip installieren:
pip install dask[complete]
Hier ist ein einfaches Beispiel, das zeigt, wie Dask Berechnungen parallelisieren kann:
import dask.array as da
# Create a large Dask array
x = da.random.random((10, 10), chunks=(10, 10))
print('Gneerated Input')
print(x.compute())
# Perform a computation
result = x.mean().compute()
print('Gneerated Mean')
print(result)
In diesem Beispiel erstellt Dask ein großes Array und unterteilt es in kleinere Teile. Der Rechner() methode löst die parallele Berechnung aus und gibt das Ergebnis zurück. Der Task-Graph wird intern verwendet, um parallele Berechnungen in Python Dask zu ermöglichen.
Dask DataFrames ähneln den Pandas DataFrames, sind aber für den Umgang mit größeren Datensätzen als dem Arbeitsspeicher konzipiert. Hier ist ein Beispiel:
import dask
df = dask.datasets.timeseries()
print('\n\nGenerated DataFrame')
print(df.head(10))
print('\n\nComputed Mean Hourly DataFrame')
print(df[["x", "y"]].resample("1h").mean().head(10))
Der Code zeigt, dass Dask in der Lage ist, Zeitreihendaten zu verarbeiten, synthetische Datensätze zu erzeugen und Aggregationen wie stündliche Mittelwerte effizient zu berechnen, indem es seine Parallelverarbeitungsfähigkeiten nutzt. Mehrere Python-Prozesse, ein verteilter Scheduler und Rechenressourcen mit mehreren Kernen werden verwendet, um die parallele Berechnung in Python Dask DataFrames zu erreichen.
Klein anfangen: Beginnen Sie mit kleinen Datensätzen, um die Funktionsweise von Dask zu verstehen, bevor Sie den Umfang vergrößern.
Nutzen Sie das Dashboard: Dask bietet ein Dashboard zur Überwachung des Fortschritts und der Leistung Ihrer Berechnungen.
IronPDF ist eine robuste Python-Bibliothek zum Erstellen, Bearbeiten und Signieren von PDF-Dokumenten mit HTML, CSS, Bildern und JavaScript. Der Schwerpunkt liegt auf effizienter Leistung bei minimalem Speicherverbrauch. Die wichtigsten Merkmale sind:
pip install ironpdf
pip install dask
Stellen Sie sicher, dass Visual Studio Code installiert ist
Python Version 3 ist installiert
Erstellen wir zunächst eine Python-Datei, um unsere Skripte hinzuzufügen
Öffnen Sie Visual Studio Code und erstellen Sie eine Datei, daskDemo.py.
Installieren Sie die erforderlichen Bibliotheken:
pip install dask
pip install ironpdf
Fügen Sie dann den folgenden Python-Code ein, um die Verwendung der Python-Pakete IronPDF und Dask zu demonstrieren
import dask
from ironpdf import *
# Apply your license key
License.LicenseKey = "key"
df = dask.datasets.timeseries()
print('\n\nGenerated DataFrame')
print(df.head(10))
print('\n\nComputed Mean Hourly DataFrame')
dfmean = df[["x", "y"]].resample("1h").mean().head(10)
print(dfmean)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with Dask</h1>"
content += "<h2>Generated DataFrame (First 10)</h2>"
rows = df.head(10)
for i in range(10):
row = df.head(10).iloc[i]
content += f"<p>{str(row[0])}, {str(row[2])}, {str(row[3])}</p>"
content += "<h2>Computed Mean Hourly DataFrame (First 10)</h2>"
for i in range(10):
row = dfmean.head(10).iloc[i]
content += f"<p>{str(row[0])}</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("DemoIronPDF-Dask.pdf")
Dieses Code-Snippet integriert Dask für die Datenverarbeitung und IronPDF für die PDF-Erzeugung. Sie demonstriert:
Dask Integration: Verwendet *Dask.datasets.timeseries()\um einen synthetischen Zeitreihen-DataFrame zu erzeugen(`df`). Druckt die ersten 10 Zeilen(`df.head(10)`) und errechnet den mittleren stündlichen DataFrame(`dfmean`) auf der Grundlage der Spalten "x" und "y".
IronPDF-Verwendung: Legt den IronPDF-Lizenzschlüssel mit `License.LicenseKey` fest. Erzeugt eine HTML-Zeichenkette(\"Inhalt) mit Kopfzeilen und Daten aus den erzeugten und berechneten DataFrames.
Rendert diesen HTML-Inhalt in eine PDF-Datei(`pdf`) unter Verwendung von `ChromePdfRenderer()`.
Speichert die PDF-Datei als "DemoIronPDF-Dask.pdf".
Dieser Code kombiniert die Fähigkeiten von Dask zur umfangreichen Datenmanipulation mit den Funktionen von IronPDF zur Umwandlung von HTML-Inhalten in ein PDF-Dokument.
IronPDF lizenzschlüssel, damit die Benutzer die umfangreichen Funktionen vor dem Kauf testen können.
Setzen Sie den Lizenzschlüssel an den Anfang des Skripts, bevor SieIronPDF-Paket:
from ironpdf import *
# Apply your license key
License.LicenseKey = "key"
Dask ist ein vielseitiges Werkzeug, das Ihre Möglichkeiten der Datenverarbeitung in Python erheblich erweitern kann. Durch die Möglichkeit des parallelen und verteilten Rechnens können Sie effizient mit großen Datenmengen arbeiten und sich nahtlos in Ihr bestehendes Python-Ökosystem integrieren. IronPDF ist eine leistungsstarke Python-Bibliothek zur Erstellung und Bearbeitung von PDF-Dokumenten mit HTML, CSS, Bildern und JavaScript. Es bietet Funktionen wie HTML-zu-PDF-Konvertierung, PDF-Bearbeitung, digitales Signieren und plattformübergreifende Unterstützung, wodurch es sich für verschiedene Aufgaben der Dokumentenerstellung und -verwaltung in Python-Anwendungen eignet.
Zusammen mit den beiden Bibliotheken können die Datenwissenschaftler fortschrittliche Datenanalysen und Datenwissenschaftstätigkeiten durchführen. Dann speichern Sie die Ausgabeergebnisse mit IronPDF im Standard-PDF-Format.
9 .NET API-Produkte für Ihre Bürodokumente