AIDE PYTHON

Python Dask (Comment ça marche pour les développeurs)

Publié août 13, 2024
Partager:

Introduction

Python est un langage puissant pour l'analyse de données et l'apprentissage automatique, mais la manipulation de grands ensembles de données peut constituer un défi pour l'analyse de données. C'est ici queDask**** entre en scène. Dask est une bibliothèque open-source qui offre une parallélisation avancée pour l'analyse, permettant des calculs efficaces sur de grands ensembles de données qui dépassent la capacité de mémoire d'une seule machine. Dans cet article, nous examinerons l'utilisation de base de la bibliothèque Dask et d'une autre bibliothèque de génération de PDF très intéressante appeléeIronPDF deIron Software pour générer des documents PDF.

Pourquoi utiliser Dask ?

Daskest conçu pour faire évoluer votre code Python d'un simple ordinateur portable à un grand cluster. Il s'intègre de manière transparente aux bibliothèques Python populaires telles que NumPy, pandas et scikit-learn, pour permettre une exécution parallèle sans modification significative du code.

Principales caractéristiques de Dask

  1. Calcul parallèle : Dask vous permet d'exécuter plusieurs tâches simultanément, ce qui accélère considérablement les calculs.

  2. Évolutivité : Il peut traiter des ensembles de données plus volumineux que la mémoire en les divisant en petits morceaux et en les traitant en parallèle.

  3. Compatibilité : Fonctionne bien avec les bibliothèques Python existantes, ce qui facilite son intégration dans votre flux de travail actuel.

  4. Flexibilité : Fournit des collections de haut niveau comme Dask DataFrame, task graphs, Dask Array, Dask Cluster, et Dask Bag, qui imitent respectivement pandas, NumPy, et lists.

Débuter avec Dask

Installation

Vous pouvez installer Dask à l'aide de pip :

pip install dask[complete]

Utilisation de base

Voici un exemple simple pour démontrer comment Dask peut paralléliser les calculs :

import dask.array as da
# Create a large Dask array
x = da.random.random((10, 10), chunks=(10, 10))
print('Gneerated Input')
print(x.compute())
# Perform a computation
result = x.mean().compute()
print('Gneerated Mean')
print(result)
PYTHON

Dans cet exemple, Dask crée un grand tableau et le divise en morceaux plus petits. Le calcul() déclenche le calcul parallèle et renvoie le résultat. Le graphe des tâches est utilisé en interne pour réaliser des calculs parallèles dans Python Dask.

Sortie

Python Dask(Comment ça marche pour les développeurs) : Figure 1

Cadres de données Dask

Les DataFrames de Dask sont similaires aux DataFrames de pandas mais sont conçues pour gérer des ensembles de données plus volumineux que la mémoire. En voici un exemple :

import dask
df = dask.datasets.timeseries()
print('\n\nGenerated DataFrame')
print(df.head(10))
print('\n\nComputed Mean Hourly DataFrame')
print(df[["x", "y"]].resample("1h").mean().head(10))
PYTHON

Le code montre la capacité de Dask à traiter des données chronologiques, à générer des ensembles de données synthétiques et à calculer efficacement des agrégations telles que des moyennes horaires, en tirant parti de ses capacités de traitement parallèle. Plusieurs processus Python, un planificateur distribué et des ressources informatiques à cœurs multiples sont utilisés pour réaliser le calcul parallèle dans les DataFrames de Python Dask.

Sortie

Python Dask (Comment ça marche pour les développeurs) : Figure 2

Meilleures pratiques

  1. Commencez petit : Commencez par de petits ensembles de données pour comprendre comment Dask fonctionne avant de passer à l'échelle supérieure.

  2. Utilisez le tableau de bord : Dask fournit un tableau de bord pour surveiller la progression et les performances de vos calculs.

  3. Optimiser la taille des morceaux : Choisissez des tailles de morceaux appropriées pour équilibrer l'utilisation de la mémoire et la vitesse de calcul.

Présentation d'IronPDF

Python Dask(Comment ça marche pour les développeurs) : Figure 3 - IronPDF : La bibliothèque PDF Python

IronPDF est une bibliothèque Python robuste conçue pour créer, modifier et signer des documents PDF à l'aide de HTML, CSS, images et JavaScript. Il met l'accent sur l'efficacité des performances avec une utilisation minimale de la mémoire. Les principales caractéristiques sont les suivantes :

  • Conversion HTML en PDF : Convertissez facilement des fichiers HTML, des chaînes et des URL en documents PDF, en tirant parti des fonctionnalités de rendu PDF de Chrome.
  • Prise en charge multiplateforme : Fonctionne de manière transparente avec Python 3+ sur Windows, Mac, Linux et diverses plateformes Cloud. Il est également compatible avec les environnements .NET, Java, Python et Node.js.
  • Édition et signature : Personnalisez les propriétés des PDF, appliquez des mesures de sécurité telles que des mots de passe et des autorisations, et ajoutez des signatures numériques en toute transparence.
  • Modèles de page et paramètres : Personnalisez les mises en page PDF avec des en-têtes, des pieds de page, des numéros de page, des marges réglables, des formats de papier personnalisés et des conceptions réactives.
  • Conformité aux normes : Respect strict des normes PDF telles que PDF/A et PDF/UA, garantissant la compatibilité de l'encodage des caractères UTF-8. La gestion efficace des ressources telles que les images, les feuilles de style CSS et les polices est également prise en charge.

Installation

pip install ironpdf 
pip install dask

Générer des documents PDF en utilisant IronPDF et Dask.

Conditions préalables

  1. Assurez-vous que Visual Studio Code est installé

  2. La version 3 de Python est installée

    Pour commencer, créons un fichier Python pour ajouter nos scripts

    Ouvrez Visual Studio Code et créez un fichier, daskDemo.py.

    Installer les bibliothèques nécessaires :

pip install dask
pip install ironpdf

Ajoutez ensuite le code python ci-dessous pour démontrer l'utilisation d'IronPDF for Python et des paquets python Dask

import dask
from ironpdf import * 
# Apply your license key
License.LicenseKey = "key"
df = dask.datasets.timeseries()
print('\n\nGenerated DataFrame')
print(df.head(10))
print('\n\nComputed Mean Hourly DataFrame')
dfmean = df[["x", "y"]].resample("1h").mean().head(10)
print(dfmean)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with Dask</h1>"
content += "<h2>Generated DataFrame (First 10)</h2>"
rows = df.head(10)
for i in range(10):    
    row = df.head(10).iloc[i]
    content += f"<p>{str(row[0])},  {str(row[2])},  {str(row[3])}</p>"
content += "<h2>Computed Mean Hourly DataFrame (First 10)</h2>"
for i in range(10):    
    row = dfmean.head(10).iloc[i]
    content += f"<p>{str(row[0])}</p>"
pdf = renderer.RenderHtmlAsPdf(content)    
    # Export to a file or Stream
pdf.SaveAs("DemoIronPDF-Dask.pdf")
PYTHON

Explication du code

Cet extrait de code intègre Dask pour le traitement des données et IronPDF pour la génération de PDF. Il démontre :

  1. Intégration Dask : Utilise \Ndask.datasets.timeseries()\Npour générer un DataFrame de séries temporelles synthétiques(\N-df\N- \N- \N). Imprime les 10 premières lignes(`df.head(10)`) et calcule la moyenne horaire DataFrame(\N-dfmean\N-dfmean\N-dfmean\N-dfmean\N-dfmean\N) sur la base des colonnes "x" et "y".

  2. Utilisation d'IronPDF : Définit la clé de licence IronPDF à l'aide de \NLicense.LicenseKey\N. Crée une chaîne HTML(\N- Contenu) contenant les en-têtes et les données des DataFrames générées et calculées.

    Transforme ce contenu HTML en PDF(\N- \Npdf\N- \N) utilisation de \NChromePdfRenderer()`.

    Enregistre le PDF sous le nom "DemoIronPDF-Dask.pdf".

    Ce code combine les capacités de Dask pour la manipulation de données à grande échelle et la fonctionnalité d'IronPDF pour la conversion de contenu HTML en document PDF.

Sortie

Python Dask (Comment ça marche pour les développeurs) : Figure 4

PDF (EN ANGLAIS)

Python Dask (Comment ça marche pour les développeurs) : Figure 5

Licence d'IronPDF

IronPDF afin de permettre aux utilisateurs de vérifier ses nombreuses fonctionnalités avant de l'acheter.

Placez la clé de licence au début du script avant de l'utiliserPaquet IronPDF:

from ironpdf import * 
# Apply your license key
License.LicenseKey = "key"
PYTHON

Conclusion

Dask est un outil polyvalent qui peut considérablement améliorer vos capacités de traitement des données en Python. En permettant le calcul parallèle et distribué, il vous permet de travailler efficacement avec de grands ensembles de données et de vous intégrer de manière transparente à votre écosystème Python existant. IronPDF est une puissante bibliothèque Python permettant de créer et de manipuler des documents PDF à l'aide de HTML, CSS, images et JavaScript. Il offre des fonctionnalités telles que la conversion de HTML en PDF, l'édition de PDF, la signature numérique et la prise en charge multiplateforme, ce qui le rend adapté à diverses tâches de génération et de gestion de documents dans les applications Python.

Avec ces deux bibliothèques, les scientifiques des données peuvent effectuer des analyses de données avancées et des opérations de science des données. Stockez ensuite les résultats de sortie au format PDF standard à l'aide d'IronPDF.

< PRÉCÉDENT
cryptographie Python (Comment ça marche pour les développeurs)
SUIVANT >
Python (Comment ça marche pour les développeurs)

Prêt à commencer ? Version : 2024.11.1 vient de paraître

Installation gratuite de pip Voir les licences > ;