AYUDA DE PYTHON

fastparquet Python (Cómo funciona para desarrolladores)

Introducción

fastparquet es una biblioteca de Python diseñada para manejar el formato de archivo Parquet, que se utiliza comúnmente en flujos de trabajo de grandes volúmenes de datos. Se integra bien con otras herramientas de procesamiento de datos basadas en Python, como Dask y Pandas. Exploremos sus características y veamos algunos ejemplos de código. Más adelante en este artículo, también aprenderemos sobre IronPDF, una biblioteca de generación de PDF de Iron Software.

Visión general de fastparquet

fastparquet es eficiente y admite una amplia gama de características de Parquet. Algunas de sus principales características son:

Lectura y escritura de archivos Parquet

Lee y escribe fácilmente en archivos Parquet y otros archivos de datos.

Integración con Pandas y Dask

Trabaje sin problemas con Pandas DataFrames y Dask para el procesamiento paralelo.

Soporte de compresión

Admite varios algoritmos de compresión como gzip, snappy, brotli, lz4 y zstandard en archivos de datos.

Almacenamiento eficiente

Optimizado tanto para el almacenamiento como para la recuperación de grandes conjuntos de datos o archivos de datos utilizando el formato de archivo en columnas parquet y un archivo de metadatos que apunta al archivo.

Instalación

Puedes instalar fastparquet usando pip:

pip install fastparquet
pip install fastparquet
SHELL

O usando conda:

conda install -c conda-forge fastparquet
py
PYTHON

Uso básico

He aquí un ejemplo sencillo para empezar a utilizar fastparquet.

Escribir un archivo Parquet

Puede escribir un Pandas DataFrame en un fichero Parquet:

import pandas as pd
import fastparquet
# Create a sample DataFrame
df = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
# Write the DataFrame to single output file using single file path
df.to_parquet('example.parquet', engine='fastparquet')
# Display message
print("DataFrame successfully written to 'example.parquet'.")
py
PYTHON

Salida

fastparquet Python (Cómo Funciona Para Desarrolladores): Figura 1 - Salida de consola

Lectura de un archivo Parquet

Puede leer un fichero Parquet en un DataFrame de Pandas:

import pandas as pd
import fastparquet
# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')
# Display the DataFrame
print(df.head())
py
PYTHON

Salida

fastparquet Python (Cómo Funciona Para Desarrolladores): Figura 2 - Salida de consola

Visualización de metadatos de archivos parquet

import fastparquet as fp
# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
py
PYTHON

Salida

fastparquet Python (Cómo Funciona Para Desarrolladores): Figura 3 - Salida de la consola

Funciones avanzadas

Uso de Dask para el procesamiento paralelo

fastparquet python se integra bien con Dask para manejar grandes conjuntos de datos en paralelo:

import dask.dataframe as dd
# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')
# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()
# Display the result for simple data types
print(result)
py
PYTHON

Personalización de la compresión

Puede especificar diferentes algoritmos de compresión al escribir archivos Parquet:

import pandas as pd
import fastparquet
# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
})
# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
py
PYTHON

Presentación de IronPDF

fastparquet Python (Cómo funciona para desarrolladores): Figura 4 - IronPDF for Python: La biblioteca PDF de Python

IronPDF es una robusta biblioteca de Python diseñada para generar, modificar y firmar digitalmente documentos PDF a partir de HTML, CSS, imágenes y JavaScript. Sobresale en rendimiento al tiempo que mantiene una huella de memoria mínima. Estas son sus principales características:

1. Conversión de HTML a PDF

Convierta archivos HTML, cadenas HTML y URL en documentos PDF con IronPDF. Por ejemplo, renderizar páginas web en PDFs sin esfuerzo utilizando el renderizador de PDF de Chrome.

2. Soporte multiplataforma

Compatible con Python 3+ en Windows, Mac, Linux y varias plataformas en la nube. IronPDF también es accesible para entornos .NET, Java, Python y Node.js.

3. Edición y firma

Modifique las propiedades del documento, mejore la seguridad con protección con contraseña y permisos, e integre firmas digitales en sus PDFs utilizando IronPDF.

4. Plantillas de página y configuración

Personaliza los PDFs con encabezados, pies de página, números de página y márgenes ajustables. Admite diseños adaptables y tamaños de papel personalizados.

5. Cumplimiento de las normas

Cumple estándares PDF como PDF/A y PDF/UA. Maneja la codificación de caracteres UTF-8 y gestiona eficazmente activos como imágenes, hojas de estilo CSS y fuentes.

Generar documentos PDF con IronPDF y fastparquet

Requisitos previos de IronPDF for Python

  1. IronPDF cuenta con .NET 6.0 como su tecnología subyacente. Por lo tanto, asegúrese de que el runtime de .NET 6.0 esté instalado en su sistema.

  2. Python 3.0+: Asegúrese de tener instalada la versión 3 o posterior de Python.

  3. pip: Instalar el instalador de paquetes de Python pip para instalar el paquete IronPDF.

Instalación

# install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
py
PYTHON

Ejemplo de código

El siguiente ejemplo de código demuestra el uso conjunto de fastparquet y IronPDF en Python:

import pandas as pd
import fastparquet as fp
from ironpdf import *     
# Apply your license key
License.LicenseKey = "your Key"
# Sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)
# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()
# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:"+"</p>"
content += "<p>"+f"{str(df)}"+"</p>"
content += "<p> DataFrame read from Parquet file:"+"</p>"
content += "<p>"+f"{str(df_read)}"+"</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("Demo-FastParquet.pdf")
py
PYTHON

Código Explicación

Este fragmento de código muestra cómo utilizar varias bibliotecas de Python para manipular datos y generar un documento PDF a partir de contenido HTML.

  1. Importaciones y Configuración: declaraciones de importación de fastparquet e IronPDF para la manipulación de datos, para leer y escribir archivos Parquet y para la generación de PDF respectivamente.

  2. Establecer clave de licencia: Establece la clave de licencia para IronPDF, habilitando sus funciones.

  3. Creación de un DataFrame de Muestra: Definir un DataFrame de muestra (df) que contenga información sobre individuos (nombre, edad, ciudad).

  4. Escribir DataFrame en Parquet: Escribe el DataFrame df en un archivo Parquet llamado example.parquet.

  5. Leyendo desde un archivo Parquet: Lea los datos del archivo Parquet (`example.parquet`) de nuevo en un DataFrame (`df_read`).

  6. Generación de PDF desde HTML: Inicializa una instancia de ChromePdfRenderer utilizando IronPDF.

  7. Cadena HTML: Construir una cadena HTML (`content`) que incluya un encabezado (`

    `) y párrafos (`

    `) que muestren el DataFrame original (`df`) y el DataFrame leído del archivo Parquet (`df_read`).

  8. `pdf = renderer.RenderHtmlAsPdf(content)`: Renderiza el contenido HTML (`content`) como un documento PDF utilizando IronPDF.

  9. `pdf.SaveAs("Demo-FastParquet.pdf")`: Guarda el documento PDF generado como `Demo-FastParquet.pdf`.

    Code muestra un código de ejemplo para FastParquet, y a continuación integra a la perfección las capacidades de procesamiento de datos con la generación de PDF, lo que lo hace útil para crear informes o documentos basados en datos almacenados en archivos parquet.

SALIDA

fastparquet Python (Cómo Funciona Para Desarrolladores): Figura 5 - Salida de consola mostrando datos del Dataframe original y el Dataframe leído del archivo Parquet.

SALIDA PDF

fastparquet Python (Cómo funciona para desarrolladores): Figura 6 - PDF de salida generado utilizando la biblioteca IronPDF

Licencia IronPDF

Página de IronPDF.

Coloque la clave de licencia al inicio del script antes de usar el paquete de IronPDF:

from ironpdf import * 
# Apply your license key
License.LicenseKey = "key"
py
PYTHON

Conclusión

fastparquet es una biblioteca poderosa y eficiente para trabajar con archivos parquet en Python. Su integración con Pandas y Dask lo convierte en una gran opción para manejar grandes conjuntos de datos en un flujo de trabajo de big data basado en Python. IronPDF es una biblioteca robusta de Python que facilita la creación, manipulación y renderización de documentos PDF directamente desde aplicaciones de Python. Simplifica tareas como la conversión de contenidos HTML en documentos PDF, la creación de formularios interactivos y la realización de diversas manipulaciones de PDF, como la fusión de archivos o la adición de marcas de agua. IronPDF se integra perfectamente con los marcos y entornos de Python existentes, proporcionando a los desarrolladores una solución versátil para generar y personalizar documentos PDF de forma dinámica. Junto con los datos de fastparquet e IronPDF, la manipulación del formato de archivo parquet y la generación de PDF se pueden realizar sin problemas.

IronPDF ofrece una documentación completa y ejemplos de código para ayudar a los desarrolladores a aprovechar al máximo sus características. Para obtener más información, consulte las páginas de documentación y ejemplo de código.

Chaknith Bin
Ingeniero de software
Chaknith trabaja en IronXL e IronBarcode. Tiene una gran experiencia en C# y .NET, ayudando a mejorar el software y a apoyar a los clientes. Sus conocimientos de las interacciones con los usuarios contribuyen a mejorar los productos, la documentación y la experiencia general.
< ANTERIOR
Flask Python (Cómo funciona para desarrolladores)
SIGUIENTE >
Keras Python (Cómo funciona para desarrolladores)

¿Listo para empezar? Versión: 2025.5 acaba de salir

Ver licencias >