AIDE PYTHON

L'informatique distribuée avec Python

Kannapat Udonpant

juillet 1, 2024

Python distribué

Le besoin de solutions informatiques évolutives et efficaces est plus grand que jamais dans le domaine de la technologie, qui évolue rapidement. L'informatique distribuée devient de plus en plus nécessaire pour les travaux impliquant de grands volumes de traitement de données distribuées, des demandes simultanées d'utilisateurs et des tâches exigeantes en termes de calcul. Afin de permettre aux développeurs d'utiliser pleinement Python distribué, nous allons examiner ses applications, ses principes et ses outils dans ce billet.

La production et la modification dynamiques de documents PDF est une exigence courante dans le domaine du développement web. La possibilité de créer des PDF par programmation est très utile pour créer des factures, des rapports et des certificats à la volée.

L'écologie étendue de Python et sa polyvalence permettent de traiter une multitude de bibliothèques PDF. ironPDF est une solution formidable qui aide les développeurs à utiliser pleinement leur infrastructure en rationalisant le processus de création de PDF et en permettant le parallélisme des tâches et l'informatique distribuée.

Comprendre Python distribué

Fondamentalement, le Python distribué consiste à diviser le travail de calcul en plus petits morceaux et à les répartir entre plusieurs nœuds, ou unités de traitement. Ces nœuds peuvent être des machines individuelles connectées à un réseau, des cœurs de CPU individuels au sein d'un système, des objets distants, des fonctions distantes, l'exécution d'appels de fonction ou à distance, ou même des threads individuels au sein d'un processus unique. L'objectif est d'améliorer les performances, l'évolutivité et la tolérance aux pannes en parallélisant la charge de travail.

Python est un excellent choix pour les charges de travail informatiques distribuées en raison de sa facilité d'utilisation, de son adaptabilité et d'un solide écosystème de bibliothèques. Python offre une abondance d'outils pour le calcul distribué à toutes les échelles et dans tous les cas d'utilisation, allant de cadres solides comme Celery, Dask, et Apache Spark à des modules intégrés comme multiprocessing et threading.

Avant d'entrer dans les détails, examinons les idées et les préceptes de base sur lesquels repose Python distribué :

Parallélisme et simultanéité

Le parallélisme implique l'exécution de plusieurs tâches en même temps, tandis que la concurrence concerne le traitement de plusieurs tâches qui peuvent avancer simultanément, mais pas nécessairement en même temps. Le Python distribué couvre à la fois le parallélisme et la concurrence, en fonction des tâches à accomplir et de la conception du système.

Répartition des tâches

Un élément clé de l'informatique parallèle et distribuée est la répartition du travail entre plusieurs nœuds ou unités de traitement. Une répartition efficace du travail est essentielle pour optimiser les performances globales, l'efficacité et l'utilisation des ressources, que l'exécution d'une fonction dans un programme informatique soit parallélisée sur plusieurs cœurs ou qu'un pipeline de traitement de données soit divisé en étapes plus petites.

Communication et coordination

Une communication et une coordination efficaces entre les nœuds sont essentielles dans les systèmes distribués pour faciliter l'orchestration de l'exécution des fonctions à distance, les flux de travail complexes, l'échange de données et la synchronisation des calculs.

Les programmes Python distribués bénéficient de technologies telles que les files d'attente de messages, les structures de données distribuées et les appels de procédure à distance(RPC) qui permettent une coordination et une communication harmonieuses entre l'exécution des fonctions à distance et l'exécution des fonctions réelles.

Fiabilité et prévention des erreurs

La capacité d'un système à s'adapter à des charges de travail croissantes en ajoutant des nœuds ou des unités de traitement sur différentes machines est appelée évolutivité. À l'inverse, la tolérance aux pannes fait référence à la conception de systèmes qui peuvent résister à des dysfonctionnements tels que des pannes de machines, des partitions de réseau et des pannes de nœuds, tout en continuant à fonctionner de manière fiable.

Pour garantir la stabilité et la résilience des applications distribuées sur plusieurs machines, les frameworks Python distribués intègrent fréquemment des fonctions de tolérance aux pannes et de mise à l'échelle automatique.

Applications de Python distribué

Traitement des données et analyse: Les grands ensembles de données peuvent être traités en parallèle à l'aide de frameworks Python distribués tels que Apache Spark et Dask, ce qui permet aux applications Python distribuées d'effectuer des activités telles que le traitement par lots, le traitement des flux en temps réel et l'apprentissage automatique à l'échelle.

Développement web avec microservices: Des applications web évolutives et des architectures microservices peuvent être créées avec des frameworks web Python comme Flask et Django en conjonction avec des files d'attente de tâches distribuées comme Celery. Les applications web peuvent facilement intégrer des fonctionnalités telles que la mise en cache distribuée, le traitement asynchrone des demandes et le traitement des tâches en arrière-plan.

Calcul scientifique et simulation: Calcul à haute performance(HPC) et la simulation parallèle sur des grappes de machines sont rendues possibles par le solide écosystème de bibliothèques scientifiques et de cadres de calcul distribué de Python. Les applications comprennent l'analyse des risques financiers, la modélisation du climat, les applications d'apprentissage automatique et les simulations de physique et de biologie informatique.

L'informatique de pointe et l'internet des objets(IdO): À mesure que les appareils IoT et les conceptions d'edge computing prolifèrent, Distributed Python devient de plus en plus important pour traiter les données des capteurs, coordonner les processus d'edge computing, construire ensemble des applications distribuées et mettre en pratique des modèles d'apprentissage automatique distribués pour les applications modernes à la périphérie.

Création et utilisation de Python distribué

Apprentissage automatique distribué avec Dask-ML

Une bibliothèque solide appelée Dask-ML étend le cadre de calcul parallèle Dask pour les travaux impliquant l'apprentissage automatique. En répartissant la tâche sur plusieurs cœurs ou processeurs d'un cluster de machines, les développeurs Python peuvent former et appliquer des modèles d'apprentissage automatique sur d'énormes ensembles de données de manière distribuée et efficace.

import dask.dataframe as dd
from dask_ml.model_selection import train_test_split
from dask_ml.xgboost import XGBoostClassifier
from sklearn.metrics import accuracy_score

# Load and prepare data (replace with your data loading logic)
df = dd.read_csv("training_data.csv")
X = df.drop("target_column", axis=1)  # Features
y = df["target_column"]  # Target variable

# Split data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Define and train the XGBoost model in a distributed fashion
model = XGBoostClassifier(n_estimators=100)  # Adjust hyperparameters as needed
model.fit(X_train, y_train)

# Make predictions on test data (can be further distributed)
y_pred = model.predict(X_test)

# Evaluate model performance (replace with your desired evaluation metric)
accuracy = accuracy_score(y_test, y_pred)
print(f"Model Accuracy: {accuracy}")

import dask.dataframe as dd
from dask_ml.model_selection import train_test_split
from dask_ml.xgboost import XGBoostClassifier
from sklearn.metrics import accuracy_score

# Load and prepare data (replace with your data loading logic)
df = dd.read_csv("training_data.csv")
X = df.drop("target_column", axis=1)  # Features
y = df["target_column"]  # Target variable

# Split data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Define and train the XGBoost model in a distributed fashion
model = XGBoostClassifier(n_estimators=100)  # Adjust hyperparameters as needed
model.fit(X_train, y_train)

# Make predictions on test data (can be further distributed)
y_pred = model.predict(X_test)

# Evaluate model performance (replace with your desired evaluation metric)
accuracy = accuracy_score(y_test, y_pred)
print(f"Model Accuracy: {accuracy}")

PYTHON

Appels de fonctions parallèles avec Ray

Avec l'aide du cadre robuste de calcul distribué Ray, vous pouvez exécuter des fonctions ou des tâches Python de manière concurrente sur les nombreux cœurs ou ordinateurs d'un cluster. En utilisant le décorateur @ray.remote, Ray vous permet de spécifier des fonctions comme étant distantes. Ensuite, ces tâches ou opérations à distance peuvent être exécutées de manière asynchrone sur les travailleurs Ray du cluster.

import ray
import numpy as np

# Define the Monte Carlo simulation function
@ray.remote
def simulate(seed):
    np.random.seed(seed)  # Set random seed for reproducibility
    # Perform your simulation logic here (replace with your specific simulation)
    # This example simulates a random walk and returns the final position
    steps = 1000
    position = 0
    for _ in range(steps):
        position += np.random.choice([-1, 1])
    return position

# Initialize Ray cluster (comment out if using existing cluster)
ray.init()

# Number of simulations to run
num_sims = 10000

# Run simulations in parallel using Ray's map function
simulations = ray.get([simulate.remote(seed) for seed in range(num_sims)])

# Analyze simulation results (calculate statistics like average final position)
average_position = np.mean(simulations)
print(f"Average final position: {average_position}")

# Shut down Ray cluster (comment out if using existing cluster)
ray.shutdown()

import ray
import numpy as np

# Define the Monte Carlo simulation function
@ray.remote
def simulate(seed):
    np.random.seed(seed)  # Set random seed for reproducibility
    # Perform your simulation logic here (replace with your specific simulation)
    # This example simulates a random walk and returns the final position
    steps = 1000
    position = 0
    for _ in range(steps):
        position += np.random.choice([-1, 1])
    return position

# Initialize Ray cluster (comment out if using existing cluster)
ray.init()

# Number of simulations to run
num_sims = 10000

# Run simulations in parallel using Ray's map function
simulations = ray.get([simulate.remote(seed) for seed in range(num_sims)])

# Analyze simulation results (calculate statistics like average final position)
average_position = np.mean(simulations)
print(f"Average final position: {average_position}")

# Shut down Ray cluster (comment out if using existing cluster)
ray.shutdown()

PYTHON

Pour commencer

Qu'est-ce qu'IronPDF ?

Nous pouvons créer, modifier et restituer des documents PDF dans des programmes .NET à l'aide du paquetage bien connu IronPDF for .NET. Il existe de nombreuses façons de travailler avec les PDF : création de nouveaux documents PDF à partir de contenu HTML, de photographies ou de données brutes, extraction de texte et d'images à partir de documents existants, conversion de pages HTML en PDF et ajout de texte, d'images et de formes à des documents préexistants.

la simplicité et la facilité d'utilisation d'IronPDF sont deux de ses principaux avantages. Les développeurs peuvent commencer à produire des PDF dans leurs applications .NET en toute simplicité grâce à son API conviviale et à sa documentation complète. la vitesse et l'efficacité d'IronPDF sont deux autres caractéristiques qui permettent aux développeurs de produire rapidement des documents PDF de haute qualité.

Quelques avantages d'IronPDF

Création de PDF à partir de données brutes, d'images et de HTML.
Extraction d'images et de texte à partir de fichiers PDF.
Inclure des en-têtes, des pieds de page et des filigranes dans les fichiers PDF.
Les fichiers PDF sont protégés par un mot de passe et un cryptage.
La possibilité de remplir et de signer des documents par voie électronique.

Génération distribuée de PDF avec IronPDF

La répartition des tâches sur de nombreux cœurs ou ordinateurs au sein d'un cluster est rendue possible par des frameworks Python distribués tels que Dask et Ray. Il est ainsi possible d'exécuter des tâches complexes telles que la génération de PDF en parallèle sur un cluster et d'exploiter plusieurs cœurs au sein de celui-ci, ce qui réduit considérablement le temps nécessaire à la création d'un lot important de PDF.

Commencez par installer IronPDF et la bibliothèque ray en utilisant pip :

pip install ironpdf
pip install celery

Voici un code Python conceptuel qui démontre deux méthodes utilisant IronPDF et Python pour la génération distribuée de PDF :

File d'attente de tâches avec un travailleur central

Travailleur central(worker.py):

from ironpdf import *     
from celery import *

app = Celery('pdf_tasks', broker='pyamqp://')
app.autodiscover_tasks()

@app.task(name='generate_pdf')
def generate_pdf(data):
    print(data)
    renderer = ChromePdfRenderer()
    pdf = renderer.RenderHtmlAsPdf(str(data))
    pdf.SaveAs("output.pdf")
    return f"PDF generated for data {data}"

if __name__ == '__main__':
    app.worker_main(argv=['worker', '--loglevel=info', '--without-gossip', '--without-mingle', '--without-heartbeat', '-Ofair', '--pool=solo'])

from ironpdf import *     
from celery import *

app = Celery('pdf_tasks', broker='pyamqp://')
app.autodiscover_tasks()

@app.task(name='generate_pdf')
def generate_pdf(data):
    print(data)
    renderer = ChromePdfRenderer()
    pdf = renderer.RenderHtmlAsPdf(str(data))
    pdf.SaveAs("output.pdf")
    return f"PDF generated for data {data}"

if __name__ == '__main__':
    app.worker_main(argv=['worker', '--loglevel=info', '--without-gossip', '--without-mingle', '--without-heartbeat', '-Ofair', '--pool=solo'])

PYTHON

Script du client(client.py):

from celery import Celery

app = Celery('pdf_tasks', broker='amqp://localhost')

def main():
    task = app.send_task('generate_pdf', args=("<h1>This is a sample PDF</h1>",))
    print(task.result)  # Wait for task completion and print result

if __name__ == '__main__':
    main()

from celery import Celery

app = Celery('pdf_tasks', broker='amqp://localhost')

def main():
    task = app.send_task('generate_pdf', args=("<h1>This is a sample PDF</h1>",))
    print(task.result)  # Wait for task completion and print result

if __name__ == '__main__':
    main()

PYTHON

celery est le système de file d'attente des tâches que nous utilisons. Les travaux sont envoyés au travailleur central(worker.py) ainsi que des dictionnaires de données contenant du contenu HTML. La fonction Python crée un PDF en utilisant IronPDF et l'enregistre avec un nom de fichier spécial.

Une tâche contenant des données d'échantillonnage est envoyée à la file d'attente par le script du client(client.py). Ce script peut être modifié pour envoyer d'autres tâches à partir de différents ordinateurs.

Python distribué (comment cela fonctionne pour les développeurs) : Figure 1

Voici le PDF généré à partir du code ci-dessus.

Python distribué (comment cela fonctionne pour les développeurs) : Figure 2

Conclusion

Les utilisateurs de IronPDF qui gèrent des activités de création de PDF à grande échelle pourraient libérer un énorme potentiel en utilisant Python et des bibliothèques distribuées comme Ray ou Dask. Par rapport à l'exécution du code sur une seule machine, vous pouvez obtenir des améliorations significatives de la vitesse en répartissant la même charge de travail sur plusieurs cœurs et en l'utilisant sur plusieurs machines.

ironPDF peut passer d'un outil puissant de création de PDF sur un seul système à une solution fiable de gestion efficace de grands ensembles de données en utilisant le langage de programmation distribué Python. Pour utiliser pleinement IronPDF dans votre prochain projet de création de PDF à grande échelle, étudiez les bibliothèques Python proposées et essayez ces méthodes!

ironPDF est proposé à un prix raisonnable lorsqu'il est acheté en tant que package et est livré avec une licence à vie. Le package offre un excellent rapport qualité-prix et pour de nombreux systèmes, il peut être acheté pour seulement $749. Il fournit un support technique en ligne 24h/24 et 7j/7 aux titulaires de licence. Pour plus d'informations sur la redevance, veuillez consulter le site web. Pour en savoir plus sur les produits fabriqués par Iron Software, rendez-vous sur cette page.

Kannapat Udonpant

Discutez avec l'équipe d'ingénierie maintenant

Ingénieur logiciel

Avant de devenir ingénieur logiciel, Kannapat a obtenu un doctorat en ressources environnementales à l'université d'Hokkaido au Japon. Tout en poursuivant ses études, Kannapat est également devenu membre du Vehicle Robotics Laboratory, qui fait partie du Department of Bioproduction Engineering (département d'ingénierie de la bioproduction). En 2022, il a mis à profit ses compétences en C# pour rejoindre l'équipe d'ingénieurs d'Iron Software, où il se concentre sur IronPDF. Kannapat apprécie son travail car il apprend directement auprès du développeur qui écrit la majeure partie du code utilisé dans IronPDF. Outre l'apprentissage par les pairs, Kannapat apprécie l'aspect social du travail chez Iron Software. Lorsqu'il n'écrit pas de code ou de documentation, Kannapat peut généralement être trouvé en train de jouer sur sa PS5 ou de revoir The Last of Us.

< PRÉCÉDENT
Web Scraping avec BeautifulSoup en Python

SUIVANT >
Bibliothèque de requêtes Python (Comment ça marche pour les développeurs)