Introduction
fastparquet est une bibliothèque Python conçue pour gérer le format de fichier Parquet, couramment utilisé dans les workflows de big data. Il s'intègre bien avec d'autres outils de traitement de données basés sur Python, comme Dask et Pandas. Explorons ses fonctionnalités et voyons quelques exemples de code. Plus tard dans cet article, nous apprendrons également à connaître IronPDF, une bibliothèque de génération de PDF de Iron Software.
Aperçu de fastparquet
fastparquet est efficace et prend en charge un large éventail de fonctionnalités Parquet. Voici quelques-unes de ses principales caractéristiques :
Lecture et écriture des fichiers Parquet
Lire et écrire facilement dans des fichiers Parquet et d'autres fichiers de données.
Intégration avec Pandas et Dask
Travailler en toute transparence avec Pandas DataFrames et Dask pour le traitement parallèle.
Soutien à la compression
Prend en charge divers algorithmes de compression tels que gzip, snappy, brotli, lz4 et zstandard dans les fichiers de données.
Stockage efficace
Optimisé pour le stockage et l'extraction de grands ensembles de données ou de fichiers de données utilisant le format de fichier en colonnes Parquet et le fichier de métadonnées pointant vers le fichier.
Installation
Vous pouvez installer fastparquet en utilisant pip :
pip install fastparquet
Ou en utilisant conda :
conda install -c conda-forge fastparquet
Utilisation de base
Voici un exemple simple pour commencer à utiliser fastparquet.
Écriture d'un fichier Parquet
Vous pouvez écrire un DataFrame Pandas dans un fichier Parquet :
import pandas as pd
import fastparquet
# Create a sample DataFrame
df = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
# Write the DataFrame to single output file using single file path
df.to_parquet('example.parquet', engine='fastparquet')
# Display message
print("DataFrame successfully written to 'example.parquet'.")
Sortie

Lecture d'un fichier Parquet
Vous pouvez lire un fichier Parquet dans un DataFrame Pandas :
import pandas as pd
import fastparquet
# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')
# Display the DataFrame
print(df.head())
Sortie

Affichage des métadonnées des fichiers Parquet
import fastparquet as fp
# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
Sortie

Fonctionnalités avancées
Utilisation de Dask pour le traitement parallèle
fastparquet python s'intègre bien avec Dask pour gérer de grands ensembles de données en parallèle :
import dask.dataframe as dd
# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')
# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()
# Display the result for simple data types
print(result)
Personnalisation de la compression
Vous pouvez spécifier différents algorithmes de compression lors de l'écriture de fichiers Parquet :
import pandas as pd
import fastparquet
# Create a sample DataFrame
df = pd.DataFrame({
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35]
})
# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
Présentation d'IronPDF

IronPDF est une bibliothèque Python robuste conçue pour générer, modifier et signer numériquement des documents PDF dérivés de HTML, CSS, images et JavaScript. Il excelle en termes de performances tout en conservant une empreinte mémoire minimale. Voici ses principales caractéristiques :
1. Conversion de HTML en PDF
Convertissez des fichiers HTML, des chaînes HTML et des URL en documents PDF avec IronPDF. Par exemple, convertissez facilement des pages web en PDF à l'aide du moteur de rendu PDF de Chrome.
Compatible avec Python 3+ sur Windows, Mac, Linux et diverses plateformes Cloud. IronPDF est également accessible pour les environnements .NET, Java, Python et Node.js.
3. Édition et signature
Modifiez les propriétés du document, renforcez la sécurité avec la protection par mot de passe et les autorisations, et intégrez des signatures numériques dans vos PDFs en utilisant IronPDF.
4. Modèles de page et paramètres
Ajustez les PDF avec des en-têtes, pieds de page personnalisés, des numéros de page et des marges ajustables. Il prend en charge les mises en page réactives et s'adapte aux formats de papier personnalisés.
5. Respect des normes
Conforme aux normes PDF telles que PDF/A et PDF/UA. Il prend en charge le codage des caractères UTF-8 et gère efficacement les ressources telles que les images, les feuilles de style CSS et les polices.
Générer des documents PDF en utilisant IronPDF et fastparquet
Conditions préalables pour IronPDF for Python
IronPDF repose sur .NET 6.0 comme technologie sous-jacente. Ainsi, veuillez vous assurer que le runtime .NET 6.0 est installé sur votre système.
Python 3.0+ : S'assurer que la version 3 de Python ou une version ultérieure est installée.
- pip : Installez le gestionnaire de paquets Python pip pour installer le package IronPDF.
Installation
# install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
Exemple de code
L'exemple de code suivant démontre l'utilisation conjointe de fastparquet et IronPDF for Python :
import pandas as pd
import fastparquet as fp
from ironpdf import *
# Apply your license key
License.LicenseKey = "your Key"
# Sample DataFrame
data = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)
# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()
# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:"+"</p>"
content += "<p>"+f"{str(df)}"+"</p>"
content += "<p> DataFrame read from Parquet file:"+"</p>"
content += "<p>"+f"{str(df_read)}"+"</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("Demo-FastParquet.pdf")
Explication du code
Cet extrait de code montre comment utiliser plusieurs bibliothèques Python pour manipuler des données et générer un document PDF à partir d'un contenu HTML.
Imports et Configuration : instructions d'importation fastparquet et IronPDF pour la manipulation de données, pour la lecture et l'écriture de fichiers Parquet et pour la génération de PDF respectivement.
Définir la clé de licence : Définissez la clé de licence pour IronPDF, activant ainsi ses fonctionnalités.
Création d'un DataFrame d'exemple : Définir un DataFrame d'exemple (`df`) contenant des informations sur des individus (nom, âge, ville).
Écriture de DataFrame en Parquet : Écrire le DataFrame `df` dans un fichier Parquet nommé `example.parquet`.
Lecture à partir d'un fichier Parquet : Lire les données du fichier Parquet (`example.parquet`) dans un DataFrame (`df_read`).
Génération de PDF à partir de HTML : Initialisez une instance de ChromePdfRenderer en utilisant IronPDF.
Chaîne HTML : Construire une chaîne HTML (`content`) qui inclut un en-tête (`
`) et des paragraphes (`
`) affichant le DataFrame original (`df`) et le DataFrame lu à partir du fichier Parquet (`df_read`).
`pdf = renderer.RenderHtmlAsPdf(content)` : Rend le contenu HTML (`content`) en tant que document PDF en utilisant IronPDF.
`pdf.SaveAs("Demo-FastParquet.pdf")` : Enregistre le document PDF généré sous le nom `Demo-FastParquet.pdf`.
Le code démontre un exemple de code pour FastParquet, puis il intègre de manière transparente les capacités de traitement des données avec la génération de PDF, ce qui le rend utile pour créer des rapports ou des documents basés sur des données stockées dans des fichiers Parquet.
SORTIE

PDF DE SORTIE

Licence d'IronPDF
Page IronPDF.
Placez la clé de licence au début du script avant d'utiliser le package IronPDF :
from ironpdf import *
# Apply your license key
License.LicenseKey = "key"
Conclusion
fastparquet est une bibliothèque puissante et efficace pour travailler avec des fichiers parquet en Python. Son intégration avec Python et Dask en fait un excellent choix pour traiter les grands ensembles de données dans un flux de travail big data basé sur Python. IronPDF est une bibliothèque Python robuste qui facilite la création, la manipulation et le rendu de documents PDF directement à partir d'applications Python. Il simplifie des tâches telles que la conversion de contenu HTML en documents PDF, la création de formulaires interactifs et l'exécution de diverses manipulations PDF telles que la fusion de fichiers ou l'ajout de filigranes. IronPDF s'intègre parfaitement aux cadres et environnements Python existants, offrant aux développeurs une solution polyvalente pour générer et personnaliser dynamiquement des documents PDF. Ensemble avec les données fastparquet et IronPDF, la manipulation du format de fichier parquet et la génération de PDF peuvent être effectuées sans accroc.
IronPDF offre une documentation complète et des exemples de code pour aider les développeurs à tirer le meilleur parti de ses fonctionnalités. Pour plus d'informations, veuillez consulter les pages de documentation et de l'exemple de code.