Pruebe en producción sin marcas de agua.
Funciona donde lo necesite.
Obtén 30 días de producto totalmente funcional.
Ténlo en funcionamiento en minutos.
Acceso completo a nuestro equipo de asistencia técnica durante la prueba del producto
fastparquet es una biblioteca de Python diseñada para manejar el formato de archivo Parquet, que se utiliza comúnmente en flujos de trabajo de grandes volúmenes de datos. Se integra bien con otras herramientas de procesamiento de datos basadas en Python, como Dask y Pandas. Exploremos sus características y veamos algunos ejemplos de código. Más adelante en este artículo, también aprenderemos sobre IronPDF, una biblioteca de generación de PDF de Iron Software.
fastparquet es eficiente y admite una amplia gama de características de Parquet. Algunas de sus principales características son:
Lee y escribe fácilmente en archivos Parquet y otros archivos de datos.
Trabaje sin problemas con Pandas DataFrames y Dask para el procesamiento paralelo.
Admite varios algoritmos de compresión como gzip, snappy, brotli, lz4 y zstandard en archivos de datos.
Optimizado tanto para el almacenamiento como para la recuperación de grandes conjuntos de datos o archivos de datos utilizando el formato de archivo en columnas parquet y un archivo de metadatos que apunta al archivo.
Puedes instalar fastparquet usando pip:
pip install fastparquet
pip install fastparquet
O usando conda:
conda install -c conda-forge fastparquet
py
He aquí un ejemplo sencillo para empezar a utilizar fastparquet.
Puede escribir un Pandas DataFrame en un fichero Parquet:
import pandas as pd
import fastparquet
# Create a sample DataFrame
df = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
# Write the DataFrame to single output file using single file path
df.to_parquet('example.parquet', engine='fastparquet')
# Display message
print("DataFrame successfully written to 'example.parquet'.")
py
Puede leer un fichero Parquet en un DataFrame de Pandas:
import pandas as pd
import fastparquet
# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')
# Display the DataFrame
print(df.head())
py
import fastparquet as fp
# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
py
fastparquet python se integra bien con Dask para manejar grandes conjuntos de datos en paralelo:
import dask.dataframe as dd
# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')
# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()
# Display the result for simple data types
print(result)
py
Puede especificar diferentes algoritmos de compresión al escribir archivos Parquet:
import pandas as pd
import fastparquet
# Create a sample DataFrame
df = pd.DataFrame({
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35]
})
# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
py
IronPDF es una robusta biblioteca de Python diseñada para generar, modificar y firmar digitalmente documentos PDF a partir de HTML, CSS, imágenes y JavaScript. Sobresale en rendimiento al tiempo que mantiene una huella de memoria mínima. Estas son sus principales características:
Convierta archivos HTML, cadenas HTML y URL en documentos PDF con IronPDF. Por ejemplo, renderizar páginas web en PDFs sin esfuerzo utilizando el renderizador de PDF de Chrome.
Compatible con Python 3+ en Windows, Mac, Linux y varias plataformas en la nube. IronPDF también es accesible para entornos .NET, Java, Python y Node.js.
Modifique las propiedades del documento, mejore la seguridad con protección con contraseña y permisos, e integre firmas digitales en sus PDFs utilizando IronPDF.
Personaliza los PDFs con encabezados, pies de página, números de página y márgenes ajustables. Admite diseños adaptables y tamaños de papel personalizados.
Cumple estándares PDF como PDF/A y PDF/UA. Maneja la codificación de caracteres UTF-8 y gestiona eficazmente activos como imágenes, hojas de estilo CSS y fuentes.
IronPDF cuenta con .NET 6.0 como su tecnología subyacente. Por lo tanto, asegúrese de que el runtime de .NET 6.0 esté instalado en su sistema.
Python 3.0+: Asegúrese de tener instalada la versión 3 o posterior de Python.
# install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
py
El siguiente ejemplo de código demuestra el uso conjunto de fastparquet y IronPDF en Python:
import pandas as pd
import fastparquet as fp
from ironpdf import *
# Apply your license key
License.LicenseKey = "your Key"
# Sample DataFrame
data = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)
# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()
# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:"+"</p>"
content += "<p>"+f"{str(df)}"+"</p>"
content += "<p> DataFrame read from Parquet file:"+"</p>"
content += "<p>"+f"{str(df_read)}"+"</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("Demo-FastParquet.pdf")
py
Este fragmento de código muestra cómo utilizar varias bibliotecas de Python para manipular datos y generar un documento PDF a partir de contenido HTML.
Importaciones y Configuración: declaraciones de importación de fastparquet e IronPDF para la manipulación de datos, para leer y escribir archivos Parquet y para la generación de PDF respectivamente.
Establecer clave de licencia: Establece la clave de licencia para IronPDF, habilitando sus funciones.
Creación de un DataFrame de Muestra: Definir un DataFrame de muestra (df
) que contenga información sobre individuos (nombre, edad, ciudad).
Escribir DataFrame en Parquet: Escribe el DataFrame df
en un archivo Parquet llamado example.parquet
.
Leyendo desde un archivo Parquet: Lea los datos del archivo Parquet (`example.parquet`) de nuevo en un DataFrame (`df_read`).
Generación de PDF desde HTML: Inicializa una instancia de ChromePdfRenderer utilizando IronPDF.
Cadena HTML: Construir una cadena HTML (`content`) que incluya un encabezado (`
`) que muestren el DataFrame original (`df`) y el DataFrame leído del archivo Parquet (`df_read`).
`pdf = renderer.RenderHtmlAsPdf(content)`: Renderiza el contenido HTML (`content`) como un documento PDF utilizando IronPDF.
`pdf.SaveAs("Demo-FastParquet.pdf")`: Guarda el documento PDF generado como `Demo-FastParquet.pdf`.
Code muestra un código de ejemplo para FastParquet, y a continuación integra a la perfección las capacidades de procesamiento de datos con la generación de PDF, lo que lo hace útil para crear informes o documentos basados en datos almacenados en archivos parquet.
Página de IronPDF.
Coloque la clave de licencia al inicio del script antes de usar el paquete de IronPDF:
from ironpdf import *
# Apply your license key
License.LicenseKey = "key"
py
fastparquet es una biblioteca poderosa y eficiente para trabajar con archivos parquet en Python. Su integración con Pandas y Dask lo convierte en una gran opción para manejar grandes conjuntos de datos en un flujo de trabajo de big data basado en Python. IronPDF es una biblioteca robusta de Python que facilita la creación, manipulación y renderización de documentos PDF directamente desde aplicaciones de Python. Simplifica tareas como la conversión de contenidos HTML en documentos PDF, la creación de formularios interactivos y la realización de diversas manipulaciones de PDF, como la fusión de archivos o la adición de marcas de agua. IronPDF se integra perfectamente con los marcos y entornos de Python existentes, proporcionando a los desarrolladores una solución versátil para generar y personalizar documentos PDF de forma dinámica. Junto con los datos de fastparquet e IronPDF, la manipulación del formato de archivo parquet y la generación de PDF se pueden realizar sin problemas.
IronPDF ofrece una documentación completa y ejemplos de código para ayudar a los desarrolladores a aprovechar al máximo sus características. Para obtener más información, consulte las páginas de documentación y ejemplo de código.