PYTHON HILFE

Dask Python (Wie es für Entwickler funktioniert)

Veröffentlicht 13. August 2024
Teilen Sie:

Einführung

Python ist eine leistungsstarke Sprache für die Datenanalyse und das maschinelle Lernen, aber der Umgang mit großen Datensätzen kann eine Herausforderung für die Datenanalyse darstellen. Dies ist der Ort, an dem *Dask**** kommt rein. Dask ist eine Open-Source-Bibliothek, die fortschrittliche Parallelisierung für Analysen bietet und effiziente Berechnungen auf großen Datensätzen ermöglicht, die die Speicherkapazität einer einzelnen Maschine übersteigen. In diesem Artikel befassen wir uns mit der grundlegenden Nutzung der Dask-Bibliothek und einer weiteren sehr interessanten Bibliothek zur PDF-Erzeugung namens IronPDF von IronSoftware um PDF-Dokumente zu erzeugen.

Warum Dask verwenden?

*Daskwurde entwickelt, um Ihren Python-Code von einem einzelnen Laptop bis zu einem großen Cluster zu skalieren. Es lässt sich nahtlos in gängige Python-Bibliotheken wie NumPy, pandas und scikit-learn integrieren, um eine parallele Ausführung ohne wesentliche Codeänderungen zu ermöglichen.

Hauptmerkmale von Dask

  1. Paralleles Rechnen: Mit Dask können Sie mehrere Aufgaben gleichzeitig ausführen, was die Berechnungen erheblich beschleunigt.

  2. Skalierbarkeit: Es kann Datenmengen verarbeiten, die größer sind als der Arbeitsspeicher, indem es sie in kleinere Teile zerlegt und parallel verarbeitet.

  3. Kompatibilität: Funktioniert gut mit bestehenden Python-Bibliotheken und lässt sich daher leicht in Ihren aktuellen Arbeitsablauf integrieren.

  4. Flexibilität: Bietet High-Level-Sammlungen wie Dask DataFrame, Task-Graphen, Dask Array, Dask Cluster und Dask Bag, die Pandas, NumPy bzw. Listen nachahmen.

Erste Schritte mit Dask

Einrichtung

Sie können Dask mit pip installieren:

pip install dask[complete]

Grundlegende Verwendung

Hier ist ein einfaches Beispiel, das zeigt, wie Dask Berechnungen parallelisieren kann:

import dask.array as da
# Create a large Dask array
x = da.random.random((10, 10), chunks=(10, 10))
print('Gneerated Input')
print(x.compute())
# Perform a computation
result = x.mean().compute()
print('Gneerated Mean')
print(result)
PYTHON

In diesem Beispiel erstellt Dask ein großes Array und unterteilt es in kleinere Teile. Der Rechner() methode löst die parallele Berechnung aus und gibt das Ergebnis zurück. Der Task-Graph wird intern verwendet, um parallele Berechnungen in Python Dask zu ermöglichen.

Ausgabe

Dask Python (Wie es für Entwickler funktioniert): Abbildung 1

Dask DataFrames

Dask DataFrames ähneln den Pandas DataFrames, sind aber für den Umgang mit größeren Datensätzen als dem Arbeitsspeicher konzipiert. Hier ist ein Beispiel:

import dask
df = dask.datasets.timeseries()
print('\n\nGenerated DataFrame')
print(df.head(10))
print('\n\nComputed Mean Hourly DataFrame')
print(df[["x", "y"]].resample("1h").mean().head(10))
PYTHON

Der Code zeigt, dass Dask in der Lage ist, Zeitreihendaten zu verarbeiten, synthetische Datensätze zu erzeugen und Aggregationen wie stündliche Mittelwerte effizient zu berechnen, indem es seine Parallelverarbeitungsfähigkeiten nutzt. Mehrere Python-Prozesse, ein verteilter Scheduler und Rechenressourcen mit mehreren Kernen werden verwendet, um die parallele Berechnung in Python Dask DataFrames zu erreichen.

Ausgabe

Dask Python (Wie es für Entwickler funktioniert): Abbildung 2

Bewährte Praktiken

  1. Klein anfangen: Beginnen Sie mit kleinen Datensätzen, um die Funktionsweise von Dask zu verstehen, bevor Sie den Umfang vergrößern.

  2. Nutzen Sie das Dashboard: Dask bietet ein Dashboard zur Überwachung des Fortschritts und der Leistung Ihrer Berechnungen.

  3. Optimize Chunk Sizes: Wählen Sie geeignete Chunk-Größen, um ein Gleichgewicht zwischen Speichernutzung und Berechnungsgeschwindigkeit herzustellen.

Einführung in IronPDF

Dask Python (Wie es für Entwickler funktioniert): Abbildung 3 - IronPDF: Die Python PDF-Bibliothek

IronPDF ist eine robuste Python-Bibliothek zum Erstellen, Bearbeiten und Signieren von PDF-Dokumenten mit HTML, CSS, Bildern und JavaScript. Der Schwerpunkt liegt auf effizienter Leistung bei minimalem Speicherverbrauch. Die wichtigsten Merkmale sind:

  • HTML-zu-PDF-Konvertierung: Konvertieren Sie HTML-Dateien, Strings und URLs in PDF-Dokumente, indem Sie die PDF-Rendering-Funktionen von Chrome nutzen.
  • Plattformübergreifende Unterstützung: Funktioniert nahtlos mit Python 3+ auf Windows, Mac, Linux und verschiedenen Cloud-Plattformen. Es ist auch mit .NET-, Java-, Python- und Node.js-Umgebungen kompatibel.
  • Bearbeiten und Signieren: Passen Sie PDF-Eigenschaften an, wenden Sie Sicherheitsmaßnahmen wie Passwörter und Berechtigungen an und fügen Sie nahtlos digitale Signaturen hinzu.
  • Seitenvorlagen und Einstellungen: Maßgeschneiderte PDF-Layouts mit Kopf- und Fußzeilen, Seitenzahlen, einstellbaren Rändern, benutzerdefinierten Papiergrößen und responsiven Designs.
  • Einhaltung von Standards: Strenge Einhaltung von PDF-Standards wie PDF/A und PDF/UA, Gewährleistung der Kompatibilität mit der UTF-8-Zeichenkodierung. Die effiziente Verwaltung von Assets wie Bildern, CSS-Stylesheets und Schriftarten wird ebenfalls unterstützt.

Einrichtung

pip install ironpdf 
pip install dask

Erzeugen von PDF-Dokumenten mit IronPDF und Dask.

Voraussetzungen

  1. Stellen Sie sicher, dass Visual Studio Code installiert ist

  2. Python Version 3 ist installiert

    Erstellen wir zunächst eine Python-Datei, um unsere Skripte hinzuzufügen

    Öffnen Sie Visual Studio Code und erstellen Sie eine Datei, daskDemo.py.

    Installieren Sie die erforderlichen Bibliotheken:

pip install dask
pip install ironpdf

Fügen Sie dann den folgenden Python-Code ein, um die Verwendung der Python-Pakete IronPDF und Dask zu demonstrieren

import dask
from ironpdf import * 
# Apply your license key
License.LicenseKey = "key"
df = dask.datasets.timeseries()
print('\n\nGenerated DataFrame')
print(df.head(10))
print('\n\nComputed Mean Hourly DataFrame')
dfmean = df[["x", "y"]].resample("1h").mean().head(10)
print(dfmean)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with Dask</h1>"
content += "<h2>Generated DataFrame (First 10)</h2>"
rows = df.head(10)
for i in range(10):    
    row = df.head(10).iloc[i]
    content += f"<p>{str(row[0])},  {str(row[2])},  {str(row[3])}</p>"
content += "<h2>Computed Mean Hourly DataFrame (First 10)</h2>"
for i in range(10):    
    row = dfmean.head(10).iloc[i]
    content += f"<p>{str(row[0])}</p>"
pdf = renderer.RenderHtmlAsPdf(content)    
    # Export to a file or Stream
pdf.SaveAs("DemoIronPDF-Dask.pdf")
PYTHON

Code Erläuterung

Dieses Code-Snippet integriert Dask für die Datenverarbeitung und IronPDF für die PDF-Erzeugung. Sie demonstriert:

  1. Dask Integration: Verwendet *Dask.datasets.timeseries()\um einen synthetischen Zeitreihen-DataFrame zu erzeugen (`df`). Druckt die ersten 10 Zeilen (`df.head(10)`) und errechnet den mittleren stündlichen DataFrame (`dfmean`) auf der Grundlage der Spalten "x" und "y".

  2. IronPDF-Verwendung: Legt den IronPDF-Lizenzschlüssel mit `License.LicenseKey` fest. Erzeugt eine HTML-Zeichenkette (\"Inhalt) mit Kopfzeilen und Daten aus den erzeugten und berechneten DataFrames.

    Rendert diesen HTML-Inhalt in eine PDF-Datei (`pdf`) unter Verwendung von `ChromePdfRenderer()`.

    Speichert die PDF-Datei als "DemoIronPDF-Dask.pdf".

    Dieser Code kombiniert die Fähigkeiten von Dask zur umfangreichen Datenmanipulation mit den Funktionen von IronPDF zur Umwandlung von HTML-Inhalten in ein PDF-Dokument.

Ausgabe

Dask Python (Wie es für Entwickler funktioniert): Abbildung 4

PDF

Dask Python (Wie es für Entwickler funktioniert): Abbildung 5

IronPDF-Lizenz

IronPDF lizenzschlüssel, damit die Benutzer die umfangreichen Funktionen vor dem Kauf testen können.

Setzen Sie den Lizenzschlüssel an den Anfang des Skripts, bevor Sie IronPDF-Paket:

from ironpdf import * 
# Apply your license key
License.LicenseKey = "key"
PYTHON

Schlussfolgerung

Dask ist ein vielseitiges Werkzeug, das Ihre Möglichkeiten der Datenverarbeitung in Python erheblich erweitern kann. Durch die Möglichkeit des parallelen und verteilten Rechnens können Sie effizient mit großen Datenmengen arbeiten und sich nahtlos in Ihr bestehendes Python-Ökosystem integrieren. IronPDF ist eine leistungsstarke Python-Bibliothek zur Erstellung und Bearbeitung von PDF-Dokumenten mit HTML, CSS, Bildern und JavaScript. Es bietet Funktionen wie HTML-zu-PDF-Konvertierung, PDF-Bearbeitung, digitales Signieren und plattformübergreifende Unterstützung, wodurch es sich für verschiedene Aufgaben der Dokumentenerstellung und -verwaltung in Python-Anwendungen eignet.

Zusammen mit den beiden Bibliotheken können die Datenwissenschaftler fortschrittliche Datenanalysen und Datenwissenschaftstätigkeiten durchführen. Dann speichern Sie die Ausgabeergebnisse mit IronPDF im Standard-PDF-Format.

< PREVIOUS
kryptographie Python (Wie es für Entwickler funktioniert)
NÄCHSTES >
Wand Python (Wie es für Entwickler funktioniert)

Sind Sie bereit, loszulegen? Version: 2024.9 gerade veröffentlicht

pip install gratuit Lizenzen anzeigen >