Pruebe en producción sin marcas de agua.
Funciona donde lo necesite.
Obtén 30 días de producto totalmente funcional.
Ténlo en funcionamiento en minutos.
Acceso completo a nuestro equipo de asistencia técnica durante la prueba del producto
Python es un potente lenguaje para el análisis de datos y el aprendizaje automático, pero el manejo de grandes conjuntos de datos puede suponer un reto para el análisis de datos. Aquí es donde entra Dask. Dask es una biblioteca de código abierto que proporciona paralelización avanzada para análisis, lo que permite el cálculo eficiente en grandes conjuntos de datos que exceden la capacidad de memoria de una sola máquina. En este artículo, analizaremos el uso básico de la biblioteca Dask y otra biblioteca de generación de PDF muy interesante llamada IronPDF de Iron Software para generar documentos PDF.
Dask está diseñado para escalar tu código Python desde un solo portátil hasta un gran clúster. Se integra perfectamente con bibliotecas populares de Python como NumPy, pandas y scikit-learn, para permitir la ejecución paralela sin cambios significativos en el código.
Computación Paralela: Dask te permite ejecutar múltiples tareas simultáneamente, acelerando significativamente los cálculos.
Escalabilidad: Puede manejar conjuntos de datos más grandes que la memoria dividiéndolos en partes más pequeñas y procesándolos en paralelo.
Compatibilidad: Funciona bien con las bibliotecas existentes de Python, lo que facilita su integración en su flujo de trabajo actual.
Puedes instalar Dask usando pip:
pip install dask[complete]
pip install dask[complete]
He aquí un ejemplo sencillo para demostrar cómo Dask puede paralelizar cálculos:
import dask.array as da
# Create a large Dask array
x = da.random.random((10, 10), chunks=(10, 10))
print('Gneerated Input')
print(x.compute())
# Perform a computation
result = x.mean().compute()
print('Gneerated Mean')
print(result)
py
En este ejemplo, Dask crea un array grande y lo divide en trozos más pequeños. El método compute() desencadena el cálculo en paralelo y devuelve el resultado. El grafo de tareas se utiliza internamente para conseguir computación paralela en Python Dask.
Los DataFrames de Dask son similares a los DataFrames de pandas pero están diseñados para manejar conjuntos de datos más grandes que la memoria. He aquí un ejemplo:
import dask
df = dask.datasets.timeseries()
print('\n\nGenerated DataFrame')
print(df.head(10))
print('\n\nComputed Mean Hourly DataFrame')
print(df[["x", "y"]].resample("1h").mean().head(10))
py
El código muestra la capacidad de Dask para manejar datos de series temporales, generar conjuntos de datos sintéticos y calcular agregaciones como medias horarias de forma eficiente, aprovechando sus capacidades de procesamiento paralelo. Se utilizan múltiples procesos Python, un planificador distribuido y múltiples núcleos de recursos computacionales para lograr la computación paralela en Python Dask DataFrames.
Comienza en Pequeño: Empieza con conjuntos de datos pequeños para entender cómo funciona Dask antes de escalar.
Use el Panel de Control: Dask proporciona un panel de control para monitorear el progreso y el rendimiento de sus cálculos.
IronPDF es una robusta biblioteca de Python diseñada para crear, editar y firmar documentos PDF usando HTML, CSS, imágenes y JavaScript. Hace hincapié en la eficiencia del rendimiento con un uso mínimo de memoria. Las características clave incluyen:
pip install ironpdf
pip install dask
pip install ironpdf
pip install dask
Asegúrese de que Visual Studio Code está instalado
Python versión 3 está instalado
Para empezar, creemos un archivo Python para añadir nuestros scripts
Abra Visual Studio Code y cree un archivo, daskDemo.py.
Instale las bibliotecas necesarias:
pip install dask
pip install ironpdf
pip install dask
pip install ironpdf
A continuación, añada el siguiente código python para demostrar el uso de los paquetes IronPDF y Dask python
import dask
from ironpdf import *
# Apply your license key
License.LicenseKey = "key"
df = dask.datasets.timeseries()
print('\n\nGenerated DataFrame')
print(df.head(10))
print('\n\nComputed Mean Hourly DataFrame')
dfmean = df[["x", "y"]].resample("1h").mean().head(10)
print(dfmean)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with Dask</h1>"
content += "<h2>Generated DataFrame (First 10)</h2>"
rows = df.head(10)
for i in range(10):
row = df.head(10).iloc[i]
content += f"<p>{str(row[0])}, {str(row[2])}, {str(row[3])}</p>"
content += "<h2>Computed Mean Hourly DataFrame (First 10)</h2>"
for i in range(10):
row = dfmean.head(10).iloc[i]
content += f"<p>{str(row[0])}</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("DemoIronPDF-Dask.pdf")
py
Este fragmento de código integra Dask para el manejo de datos e IronPDF para la generación de PDF. Lo demuestra:
Integración de Dask: Utiliza dask.datasets.timeseries()
para generar un DataFrame de serie temporal sintética (df
). Imprime las primeras 10 filas (df.head(10)
) y calcula el DataFrame promedio por hora (dfmean
) basado en las columnas "x" e "y".
Uso de IronPDF: Establece la clave de licencia de IronPDF utilizando `License.LicenseKey`. Crea una cadena HTML (`content`) que contiene encabezados y datos de los DataFrames generados y calculados.
Renderiza este contenido HTML en un PDF (`pdf`) usando `ChromePdfRenderer()`.
Guarda el PDF como "DemoIronPDF-Dask.pdf".
Este código combina las capacidades de Dask para la manipulación de datos a gran escala y la funcionalidad de IronPDF para convertir contenido HTML en un documento PDF.
Clave de licencia de IronPDF para permitir a los usuarios probar sus amplias funciones antes de la compra.
Coloque la clave de licencia al inicio del script antes de usar el paquete de IronPDF:
from ironpdf import *
# Apply your license key
License.LicenseKey = "key"
py
Dask es una herramienta versátil que puede mejorar significativamente tus capacidades de procesamiento de datos en Python. Al permitir la computación paralela y distribuida, le permite trabajar con grandes conjuntos de datos de forma eficiente e integrarse perfectamente con su ecosistema Python existente. IronPDF es una potente biblioteca de Python para crear y manipular documentos PDF usando HTML, CSS, imágenes y JavaScript. Ofrece funciones como la conversión de HTML a PDF, la edición de PDF, la firma digital y la compatibilidad multiplataforma, lo que lo hace adecuado para diversas tareas de generación y gestión de documentos en aplicaciones Python.
Junto con ambas bibliotecas, los científicos de datos pueden realizar análisis avanzados de datos y operaciones de ciencia de datos. A continuación, almacene los resultados de salida en formato PDF estándar utilizando IronPDF.