Pruebas en un entorno real
Pruebe en producción sin marcas de agua.
Funciona donde lo necesites.
fastparquet es una biblioteca de Python diseñada para manejar el formato de archivo Parquet, que se utiliza habitualmente en los flujos de trabajo de big data. Se integra bien con otras herramientas de procesamiento de datos basadas en Python, como Dask y Pandas. Exploremos sus características y veamos algunos ejemplos de código. Más adelante en este artículo, también aprenderemos sobre IronPDFuna biblioteca de generación de PDF de **IronSoftware.
fastparquet es eficaz y admite una amplia gama de funciones de Parquet. Algunas de sus principales características son:
Lee y escribe fácilmente en archivos Parquet y otros archivos de datos.
Trabaje sin problemas con Pandas DataFrames y Dask para el procesamiento paralelo.
Admite varios algoritmos de compresión como gzip, snappy, brotli, lz4 y zstandard en archivos de datos.
Optimizado tanto para el almacenamiento como para la recuperación de grandes conjuntos de datos o archivos de datos utilizando el formato de archivo en columnas parquet y un archivo de metadatos que apunta al archivo.
Puede instalar fastparquet usando pip:
pip install fastparquet
pip install fastparquet
IRON VB CONVERTER ERROR developers@ironsoftware.com
O usando conda:
conda install -c conda-forge fastparquet
conda install -c conda-forge fastparquet
IRON VB CONVERTER ERROR developers@ironsoftware.com
He aquí un ejemplo sencillo para empezar a utilizar fastparquet.
Puede escribir un Pandas DataFrame en un fichero Parquet:
import pandas as pd
import fastparquet
# Create a sample DataFrame
df = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
# Write the DataFrame to single output file using single file path
df.to_parquet('example.parquet', engine='fastparquet')
# Display message
print("DataFrame successfully written to 'example.parquet'.")
import pandas as pd
import fastparquet
# Create a sample DataFrame
df = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
# Write the DataFrame to single output file using single file path
df.to_parquet('example.parquet', engine='fastparquet')
# Display message
print("DataFrame successfully written to 'example.parquet'.")
IRON VB CONVERTER ERROR developers@ironsoftware.com
Puede leer un fichero Parquet en un DataFrame de Pandas:
import pandas as pd
import fastparquet
# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')
# Display the DataFrame
print(df.head())
import pandas as pd
import fastparquet
# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')
# Display the DataFrame
print(df.head())
IRON VB CONVERTER ERROR developers@ironsoftware.com
import fastparquet as fp
# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
import fastparquet as fp
# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
IRON VB CONVERTER ERROR developers@ironsoftware.com
fastparquet python se integra bien con Dask para manejar grandes conjuntos de datos en paralelo:
import dask.dataframe as dd
# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')
# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()
# Display the result for simple data types
print(result)
import dask.dataframe as dd
# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')
# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()
# Display the result for simple data types
print(result)
IRON VB CONVERTER ERROR developers@ironsoftware.com
Puede especificar diferentes algoritmos de compresión al escribir archivos Parquet:
import pandas as pd
import fastparquet
# Create a sample DataFrame
df = pd.DataFrame({
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35]
})
# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
import pandas as pd
import fastparquet
# Create a sample DataFrame
df = pd.DataFrame({
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35]
})
# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
IRON VB CONVERTER ERROR developers@ironsoftware.com
IronPDF es una robusta biblioteca de Python diseñada para generar, modificar y firmar digitalmente documentos PDF derivados de HTML, CSS, imágenes y JavaScript. Sobresale en rendimiento al tiempo que mantiene una huella de memoria mínima. Estas son sus principales características:
Convierta archivos HTML, cadenas HTML y URL en documentos PDF con IronPDF. Por ejemplo, sin esfuerzo convertir páginas web en PDF utilizando el renderizador de PDF de Chrome.
Compatible con Python 3+ en Windows, Mac, Linux y varias plataformas en la nube. IronPDF también es accesible para entornos .NET, Java, Python y Node.js.
Modifique las propiedades de los documentos, mejore la seguridad con protección por contraseña y permisose integrar firmas digitales en sus PDF con IronPDF.
Personaliza los PDF encabezados, pies de página, números de páginay márgenes ajustables. Admite diseños adaptables y tamaños de papel personalizados.
Cumple estándares PDF como PDF/A y PDF/UA. Maneja la codificación de caracteres UTF-8 y gestiona eficazmente activos como imágenes, hojas de estilo CSS y fuentes.
IronPDF cuenta con .NET 6.0 como tecnología subyacente. Por lo tanto, asegúrese de que Tiempo de ejecución de .NET 6.0 está instalado en su sistema.
Python 3.0+: Asegúrese de tener instalada la versión 3 o posterior de Python.
# install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
# install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
IRON VB CONVERTER ERROR developers@ironsoftware.com
El siguiente ejemplo de código demuestra el uso conjunto de fastparquet y IronPDF en Python:
import pandas as pd
import fastparquet as fp
from ironpdf import *
# Apply your license key
License.LicenseKey = "your Key"
# Sample DataFrame
data = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)
# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()
# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:"+"</p>"
content += "<p>"+f"{str(df)}"+"</p>"
content += "<p> DataFrame read from Parquet file:"+"</p>"
content += "<p>"+f"{str(df_read)}"+"</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("Demo-FastParquet.pdf")
import pandas as pd
import fastparquet as fp
from ironpdf import *
# Apply your license key
License.LicenseKey = "your Key"
# Sample DataFrame
data = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)
# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()
# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:"+"</p>"
content += "<p>"+f"{str(df)}"+"</p>"
content += "<p> DataFrame read from Parquet file:"+"</p>"
content += "<p>"+f"{str(df_read)}"+"</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("Demo-FastParquet.pdf")
IRON VB CONVERTER ERROR developers@ironsoftware.com
Este fragmento de código muestra cómo utilizar varias bibliotecas de Python para manipular datos y generar un documento PDF a partir de contenido HTML.
Importación y configuración: sentencias fastparquet import y IronPDF import para la manipulación de datos, para la lectura y escritura de archivos Parquet y para la generación de PDF, respectivamente.
Establecer la clave de licencia: Establezca la clave de licencia para IronPDF, habilitando sus funciones.
Crear un DataFrame de muestra: Definir un DataFrame de muestra (`df\`) que contengan información sobre las personas (nombre, edad, ciudad).
Escribir DataFrame a Parquet: Escribir el DataFrame `df` en un fichero Parquet llamado `ejemplo.parquet``.
Lectura desde el archivo Parquet: Leer datos del archivo Parquet (\ejemplo.parquet) en un DataFrame (`df_read\`).
Generar PDF a partir de HTML: Inicializar una instancia de ChromePdfRenderer usando IronPDF.
Cadena HTML: Construye una cadena HTML (\Contenido) que incluye un encabezamiento (`
`) visualización del DataFrame original (`df\) y el DataFrame leído del archivo Parquet (\
df_read\`).
`pdf = renderer.RenderHtmlAsPdf(contenido)`: Renderiza el contenido HTML (\Contenido) como documento PDF utilizando IronPDF.
`pdf.SaveAs("Demo-FastParquet.pdf")`: Guarda el documento PDF generado como `Demo-FastParquet.pdf``.
Code muestra un código de ejemplo para FastParquet, y a continuación integra a la perfección las capacidades de procesamiento de datos con la generación de PDF, lo que lo hace útil para crear informes o documentos basados en datos almacenados en archivos parquet.
IronPDF página.
Coloque la clave de licencia al principio del script antes de utilizar Paquete IronPDF:
from ironpdf import *
# Apply your license key
License.LicenseKey = "key"
from ironpdf import *
# Apply your license key
License.LicenseKey = "key"
IRON VB CONVERTER ERROR developers@ironsoftware.com
fastparquet es una biblioteca potente y eficaz para trabajar con archivos parquet en Python. Su integración con Pandas y Dask lo convierte en una gran opción para manejar grandes conjuntos de datos en un flujo de trabajo de big data basado en Python. IronPDF es una robusta biblioteca de Python que facilita la creación, manipulación y representación de documentos PDF directamente desde aplicaciones Python. Simplifica tareas como la conversión de contenidos HTML en documentos PDF, la creación de formularios interactivos y la realización de diversas manipulaciones de PDF, como la fusión de archivos o la adición de marcas de agua. IronPDF se integra perfectamente con los marcos y entornos Python existentes, proporcionando a los desarrolladores una solución versátil para generar y personalizar documentos PDF de forma dinámica. Junto con los datos fastparquet e IronPDF, la manipulación del formato de archivo parquet y la generación de PDF pueden realizarse sin problemas.
IronPDF ofrece una completa documentación y ejemplos de código para ayudar a los desarrolladores a sacar el máximo partido de sus funciones. Para más información, consulte el documentación y ejemplo de código páginas.
9 productos API .NET para sus documentos de oficina