AYUDA DE PYTHON

Computación distribuida con Python

Kannapat Udonpant

1 de julio, 2024

Python distribuido

En el cambiante campo de la tecnología hay más necesidad que nunca de soluciones informáticas escalables y eficaces. La informática distribuida es cada vez más necesaria para trabajos que implican grandes volúmenes de procesamiento de datos distribuidos, peticiones concurrentes de usuarios y tareas exigentes desde el punto de vista computacional. Para que los desarrolladores puedan utilizar plenamente Python distribuido, en este artículo examinaremos sus aplicaciones, principios y herramientas.

Producir y modificar dinámicamente documentos PDF es un requisito habitual en el campo del desarrollo web. La posibilidad de crear PDF mediante programación resulta muy útil para crear facturas, informes y certificados sobre la marcha.

La amplia ecología y versatilidad de Python permiten trabajar con multitud de bibliotecas PDF. ironPDF es una solución formidable que ayuda a los desarrolladores a aprovechar al máximo su infraestructura agilizando el proceso de creación de PDF y permitiendo también el paralelismo de tareas y la computación distribuida.

Comprender el Python distribuido

Fundamentalmente, Python distribuido es el proceso de dividir el trabajo computacional en trozos más pequeños y repartirlos entre varios nodos, o unidades de procesamiento. Estos nodos pueden ser máquinas individuales conectadas a una red, núcleos de CPU individuales dentro de un sistema, objetos remotos, funciones remotas, ejecución remota o de llamadas a funciones, o incluso hilos individuales dentro de un único proceso. El objetivo es aumentar el rendimiento, la escalabilidad y la tolerancia a fallos paralelizando la carga de trabajo.

Python es una gran elección para cargas de trabajo de computación distribuida por su facilidad de uso, adaptabilidad y un sólido ecosistema de bibliotecas. Python ofrece abundantes herramientas para la computación distribuida a todas las escalas y en todos los casos de uso, desde potentes frameworks como Celery, Dask y Apache Spark hasta módulos integrados como multiprocessing y threading.

Antes de profundizar en los detalles, examinemos las ideas básicas y los preceptos sobre los que se construye el Python distribuido:

Paralelismo frente a concurrencia

El paralelismo implica llevar a cabo múltiples tareas al mismo tiempo, mientras que la concurrencia se ocupa de gestionar muchas tareas que pueden avanzar de forma concurrente pero no necesariamente simultánea. Tanto el paralelismo como la concurrencia están cubiertos por el Python distribuido, dependiendo de las tareas a realizar y del diseño del sistema.

Distribución de tareas

Un componente clave de la computación paralela y distribuida es la distribución del trabajo entre varios nodos o unidades de procesamiento. La distribución eficaz del trabajo es crucial para optimizar el rendimiento general, la eficiencia y el uso de recursos, tanto si la ejecución de funciones en un programa informático se paraleliza en varios núcleos como si una cadena de procesamiento de datos se divide en etapas más pequeñas.

Comunicación y coordinación

La comunicación y coordinación eficaces entre nodos son esenciales en los sistemas distribuidos para facilitar la orquestación de la ejecución de funciones remotas, los flujos de trabajo intrincados, el intercambio de datos y la sincronización de cálculos.

Los programas Python distribuidos se benefician de tecnologías como las colas de mensajes, las estructuras de datos distribuidas y las llamadas a procedimientos remotos(EPR) que permiten una coordinación y comunicación fluidas entre la ejecución de funciones remotas y reales.

Fiabilidad y prevención de errores

La capacidad de un sistema para acomodar cargas de trabajo crecientes añadiendo nodos o unidades de procesamiento en diferentes máquinas se denomina escalabilidad. Por el contrario, la tolerancia a fallos se refiere al diseño de sistemas que pueden resistir fallos como averías de máquinas, particiones de red y caídas de nodos y seguir funcionando de forma fiable.

Para garantizar la estabilidad y resistencia de las aplicaciones distribuidas en varias máquinas, los marcos de trabajo distribuidos de Python suelen incluir funciones de tolerancia a fallos y escalado automático.

Aplicaciones de Python distribuido

Procesamiento de datos y análisis: Los grandes conjuntos de datos se pueden procesar en paralelo utilizando marcos distribuidos de Python como Apache Spark y Dask, lo que hace posible que las aplicaciones distribuidas de Python realicen actividades como el procesamiento por lotes, el procesamiento de flujos en tiempo real y el aprendizaje automático a escala.

Desarrollo web con microservicios: Se pueden crear aplicaciones web escalables y arquitecturas de microservicios con marcos web de Python como Flask y Django junto con colas de tareas distribuidas como Celery. Las aplicaciones web pueden incorporar fácilmente funciones como el almacenamiento distribuido en caché, la gestión asíncrona de peticiones y el procesamiento de trabajos en segundo plano.

Informática científica y simulación: Informática de alto rendimiento(HPC) y la simulación paralela en clústeres de máquinas son posibles gracias al sólido ecosistema de bibliotecas científicas y marcos de computación distribuida de Python. Las aplicaciones incluyen análisis de riesgos financieros, modelización climática, aplicaciones de aprendizaje automático y simulaciones de física y biología computacional.

Edge Computing e Internet de los objetos(IoT): A medida que proliferan los dispositivos IoT y los diseños de computación de borde, Distributed Python se vuelve cada vez más importante para manejar datos de sensores, coordinar procesos de computación de borde, construir aplicaciones distribuidas juntas y poner en práctica modelos de aprendizaje automático distribuidos para aplicaciones modernas en el borde.

Creación y uso de Python distribuido

Aprendizaje automático distribuido con Dask-ML

Una potente biblioteca llamada Dask-ML amplía el marco de computación paralela Dask para trabajos relacionados con el aprendizaje automático. Dividir la tarea en varios núcleos o procesadores de un clúster de máquinas permite a los desarrolladores de Python entrenar y aplicar modelos de aprendizaje automático en enormes conjuntos de datos de forma distribuida y eficaz.

import dask.dataframe as dd
from dask_ml.model_selection import train_test_split
from dask_ml.xgboost import XGBoostClassifier
from sklearn.metrics import accuracy_score

# Load and prepare data (replace with your data loading logic)
df = dd.read_csv("training_data.csv")
X = df.drop("target_column", axis=1)  # Features
y = df["target_column"]  # Target variable

# Split data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Define and train the XGBoost model in a distributed fashion
model = XGBoostClassifier(n_estimators=100)  # Adjust hyperparameters as needed
model.fit(X_train, y_train)

# Make predictions on test data (can be further distributed)
y_pred = model.predict(X_test)

# Evaluate model performance (replace with your desired evaluation metric)
accuracy = accuracy_score(y_test, y_pred)
print(f"Model Accuracy: {accuracy}")

import dask.dataframe as dd
from dask_ml.model_selection import train_test_split
from dask_ml.xgboost import XGBoostClassifier
from sklearn.metrics import accuracy_score

# Load and prepare data (replace with your data loading logic)
df = dd.read_csv("training_data.csv")
X = df.drop("target_column", axis=1)  # Features
y = df["target_column"]  # Target variable

# Split data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Define and train the XGBoost model in a distributed fashion
model = XGBoostClassifier(n_estimators=100)  # Adjust hyperparameters as needed
model.fit(X_train, y_train)

# Make predictions on test data (can be further distributed)
y_pred = model.predict(X_test)

# Evaluate model performance (replace with your desired evaluation metric)
accuracy = accuracy_score(y_test, y_pred)
print(f"Model Accuracy: {accuracy}")

PYTHON

Llamadas a funciones paralelas con Ray

Con la ayuda del robusto marco de computación distribuida Ray, puede ejecutar funciones o tareas de Python de forma concurrente en los numerosos núcleos u ordenadores de un clúster. Utilizando el decorador @ray.remote, Ray permite especificar funciones como remotas. Después, estas tareas u operaciones remotas pueden ejecutarse de forma asíncrona en los Ray workers del clúster.

import ray
import numpy as np

# Define the Monte Carlo simulation function
@ray.remote
def simulate(seed):
    np.random.seed(seed)  # Set random seed for reproducibility
    # Perform your simulation logic here (replace with your specific simulation)
    # This example simulates a random walk and returns the final position
    steps = 1000
    position = 0
    for _ in range(steps):
        position += np.random.choice([-1, 1])
    return position

# Initialize Ray cluster (comment out if using existing cluster)
ray.init()

# Number of simulations to run
num_sims = 10000

# Run simulations in parallel using Ray's map function
simulations = ray.get([simulate.remote(seed) for seed in range(num_sims)])

# Analyze simulation results (calculate statistics like average final position)
average_position = np.mean(simulations)
print(f"Average final position: {average_position}")

# Shut down Ray cluster (comment out if using existing cluster)
ray.shutdown()

import ray
import numpy as np

# Define the Monte Carlo simulation function
@ray.remote
def simulate(seed):
    np.random.seed(seed)  # Set random seed for reproducibility
    # Perform your simulation logic here (replace with your specific simulation)
    # This example simulates a random walk and returns the final position
    steps = 1000
    position = 0
    for _ in range(steps):
        position += np.random.choice([-1, 1])
    return position

# Initialize Ray cluster (comment out if using existing cluster)
ray.init()

# Number of simulations to run
num_sims = 10000

# Run simulations in parallel using Ray's map function
simulations = ray.get([simulate.remote(seed) for seed in range(num_sims)])

# Analyze simulation results (calculate statistics like average final position)
average_position = np.mean(simulations)
print(f"Average final position: {average_position}")

# Shut down Ray cluster (comment out if using existing cluster)
ray.shutdown()

PYTHON

Primeros pasos

¿Qué es IronPDF?

Podemos crear, modificar y renderizar documentos PDF dentro de programas .NET con la ayuda del conocido paquete IronPDF for .NET. Se puede trabajar con PDF de muchas formas distintas: desde crear nuevos documentos PDF a partir de contenido HTML, fotografías o datos sin procesar, hasta extraer texto e imágenes de los ya existentes, convertir páginas HTML en PDF y añadir texto, imágenes y formas a los ya existentes.

la sencillez y facilidad de uso de IronPDF son dos de sus principales ventajas. Los desarrolladores pueden empezar a producir archivos PDF en sus aplicaciones .NET con facilidad gracias a su API fácil de usar y a su amplia documentación. la velocidad y eficacia de IronPDF son otras dos características que facilitan a los desarrolladores la producción rápida de documentos PDF de alta calidad.

Algunas ventajas de IronPDF

Creación de PDF a partir de datos sin procesar, imágenes y HTML.
Extraer imágenes y texto de archivos PDF.
Incluya encabezados, pies de página y marcas de agua en los archivos PDF.
Los archivos PDF están protegidos mediante contraseña y cifrado.
Capacidad para cumplimentar y firmar documentos electrónicamente.

Generación distribuida de PDF con IronPDF

La distribución de tareas entre numerosos núcleos u ordenadores dentro de un clúster es posible gracias a marcos distribuidos de Python como Dask y Ray. Esto permite ejecutar tareas complejas como la generación de PDF en paralelo a través de un clúster y aprovechar los múltiples núcleos que lo componen, lo que reduce drásticamente el tiempo necesario para crear un gran lote de PDF.

Empieza instalando IronPDF y la librería ray usando pip:

pip install ironpdf
pip install celery

Aquí hay algo de código Python conceptual que demuestra dos métodos utilizando IronPDF y Python para la generación distribuida de PDF:

Cola de tareas con un trabajador central

Trabajador central(worker.py):

from ironpdf import *     
from celery import *

app = Celery('pdf_tasks', broker='pyamqp://')
app.autodiscover_tasks()

@app.task(name='generate_pdf')
def generate_pdf(data):
    print(data)
    renderer = ChromePdfRenderer()
    pdf = renderer.RenderHtmlAsPdf(str(data))
    pdf.SaveAs("output.pdf")
    return f"PDF generated for data {data}"

if __name__ == '__main__':
    app.worker_main(argv=['worker', '--loglevel=info', '--without-gossip', '--without-mingle', '--without-heartbeat', '-Ofair', '--pool=solo'])

from ironpdf import *     
from celery import *

app = Celery('pdf_tasks', broker='pyamqp://')
app.autodiscover_tasks()

@app.task(name='generate_pdf')
def generate_pdf(data):
    print(data)
    renderer = ChromePdfRenderer()
    pdf = renderer.RenderHtmlAsPdf(str(data))
    pdf.SaveAs("output.pdf")
    return f"PDF generated for data {data}"

if __name__ == '__main__':
    app.worker_main(argv=['worker', '--loglevel=info', '--without-gossip', '--without-mingle', '--without-heartbeat', '-Ofair', '--pool=solo'])

PYTHON

Guión del cliente(client.py):

from celery import Celery

app = Celery('pdf_tasks', broker='amqp://localhost')

def main():
    task = app.send_task('generate_pdf', args=("<h1>This is a sample PDF</h1>",))
    print(task.result)  # Wait for task completion and print result

if __name__ == '__main__':
    main()

from celery import Celery

app = Celery('pdf_tasks', broker='amqp://localhost')

def main():
    task = app.send_task('generate_pdf', args=("<h1>This is a sample PDF</h1>",))
    print(task.result)  # Wait for task completion and print result

if __name__ == '__main__':
    main()

PYTHON

Celery es el sistema de colas de tareas que empleamos. Los trabajos se envían al trabajador central(worker.py) junto con diccionarios de datos con contenido HTML. La función de Python crea un PDF utilizando IronPDF y lo guarda con un nombre de archivo especial.

El script cliente envía a la cola una tarea que contiene datos de muestra(client.py). Este script puede modificarse para enviar otras tareas desde distintos ordenadores.

Python distribuido (cómo funciona para los desarrolladores): Figura 1

A continuación se muestra el PDF generado a partir del código anterior.

Python distribuido (cómo funciona para los desarrolladores): Figura 2

Conclusión

Los usuarios de IronPDF que se ocupan de actividades de creación de PDF a gran escala podrían dar rienda suelta a un enorme potencial utilizando Python distribuido y bibliotecas como Ray o Dask. Si se compara con la realización de código en una sola máquina, se pueden obtener importantes mejoras de velocidad repartiendo la misma carga de trabajo de código entre varios núcleos y utilizándola en varias máquinas.

con el lenguaje de programación distribuido Python, IronPDF puede pasar de ser una potente herramienta para crear archivos PDF en un único sistema a convertirse en una solución fiable para gestionar eficazmente grandes conjuntos de datos. Para utilizar plenamente IronPDF en su próximo proyecto de creación de PDF a gran escala, investigue las bibliotecas de Python que se ofrecen y pruebe estos métodos!

ironPDFtiene un precio razonable si se adquiere como paquete e incluye una licencia de por vida. El paquete tiene un valor excelente, y para muchos sistemas, puede adquirirse por tan solo$liteLicense`. Ofrece soporte de ingeniería en línea 24/7 a los titulares de licencias. Si desea más información sobre el cargo, visite el sitio web. Para obtener más información sobre los productos que fabrica Iron Software, visite esta página.

Kannapat Udonpant

Chatea con el equipo de ingeniería ahora

Ingeniero de software

Antes de convertirse en ingeniero de software, Kannapat realizó un doctorado en Recursos Medioambientales en la Universidad de Hokkaido (Japón). Mientras cursaba su licenciatura, Kannapat también se convirtió en miembro del Laboratorio de Robótica Vehicular, que forma parte del Departamento de Ingeniería de Bioproducción. En 2022, aprovechó sus conocimientos de C# para unirse al equipo de ingeniería de Iron Software, donde se centra en IronPDF. Kannapat valora su trabajo porque aprende directamente del desarrollador que escribe la mayor parte del código utilizado en IronPDF. Además del aprendizaje entre iguales, Kannapat disfruta del aspecto social de trabajar en Iron Software. Cuando no está escribiendo código o documentación, Kannapat suele jugar con su PS5 o volver a ver The Last of Us.

< ANTERIOR
Web Scraping con BeautifulSoup en Python

SIGUIENTE >
Python Requests Library (Cómo funciona para desarrolladores)