Test dans un environnement réel
Test en production sans filigrane.
Fonctionne partout où vous en avez besoin.
fastparquet est une bibliothèque Python conçue pour gérer le format de fichier Parquet, qui est couramment utilisé dans les flux de travail du big data. Il s'intègre bien avec d'autres outils de traitement de données basés sur Python, comme Dask et Pandas. Explorons ses fonctionnalités et voyons quelques exemples de code. Dans la suite de cet article, nous aborderons également les sujets suivantsIronPDF, une bibliothèque de génération de PDF deIron Software.
fastparquet est efficace et prend en charge un large éventail de fonctionnalités Parquet. Voici quelques-unes de ses principales caractéristiques :
Lire et écrire facilement dans des fichiers Parquet et d'autres fichiers de données.
Travailler en toute transparence avec Pandas DataFrames et Dask pour le traitement parallèle.
Prend en charge divers algorithmes de compression tels que gzip, snappy, brotli, lz4 et zstandard dans les fichiers de données.
Optimisé pour le stockage et l'extraction de grands ensembles de données ou de fichiers de données utilisant le format de fichier en colonnes Parquet et le fichier de métadonnées pointant vers le fichier.
Vous pouvez installerfastparquet en utilisant pip :
pip install fastparquet
Ou en utilisant conda :
conda install -c conda-forge fastparquet
Voici un exemple simple pour commencer à utiliser fastparquet.
Vous pouvez écrire un DataFrame Pandas dans un fichier Parquet :
import pandas as pd
import fastparquet
# Create a sample DataFrame
df = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
# Write the DataFrame to single output file using single file path
df.to_parquet('example.parquet', engine='fastparquet')
# Display message
print("DataFrame successfully written to 'example.parquet'.")
Vous pouvez lire un fichier Parquet dans un DataFrame Pandas :
import pandas as pd
import fastparquet
# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')
# Display the DataFrame
print(df.head())
import fastparquet as fp
# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
fastparquet python s'intègre bien avecDask pour traiter de grands ensembles de données en parallèle :
import dask.dataframe as dd
# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')
# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()
# Display the result for simple data types
print(result)
Vous pouvez spécifier différents algorithmes de compression lors de l'écriture de fichiers Parquet :
import pandas as pd
import fastparquet
# Create a sample DataFrame
df = pd.DataFrame({
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35]
})
# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
IronPDF est une bibliothèque Python robuste conçue pour générer, modifier et signer numériquement des documents PDF dérivés de HTML, CSS, images et JavaScript. Il excelle en termes de performances tout en conservant une empreinte mémoire minimale. Voici ses principales caractéristiques :
Convertissez des fichiers HTML, des chaînes HTML et des URL en documents PDF avec IronPDF. Par exemple, sans efforttransformer des pages web en PDF en utilisant le moteur de rendu PDF de Chrome.
Compatible avec Python 3+ sur Windows, Mac, Linux et diverses plateformes Cloud. IronPDF est également accessible pour les environnements .NET, Java, Python et Node.js.
Modifier les propriétés des documents, renforcer la sécurité avecprotection par mot de passe et autorisationset intégrersignatures numériques dans vos PDF à l'aide d'IronPDF.
Personnaliser les PDF avec desen-têtes, pieds de page, numéros de pageet des marges ajustables. Il prend en charge les mises en page réactives et s'adapte aux formats de papier personnalisés.
Conforme aux normes PDF telles que PDF/A et PDF/UA. Il prend en charge le codage des caractères UTF-8 et gère efficacement les ressources telles que les images, les feuilles de style CSS et les polices.
IronPDF repose sur la technologie .NET 6.0. Veillez donc à ce que.NET 6.0 runtime est installé sur votre système.
Python 3.0+ : S'assurer que la version 3 de Python ou une version ultérieure est installée.
# install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
L'exemple de code suivant démontre l'utilisation conjointe de fastparquet et IronPDF for Python :
import pandas as pd
import fastparquet as fp
from ironpdf import *
# Apply your license key
License.LicenseKey = "your Key"
# Sample DataFrame
data = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)
# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()
# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:"+"</p>"
content += "<p>"+f"{str(df)}"+"</p>"
content += "<p> DataFrame read from Parquet file:"+"</p>"
content += "<p>"+f"{str(df_read)}"+"</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("Demo-FastParquet.pdf")
Cet extrait de code montre comment utiliser plusieurs bibliothèques Python pour manipuler des données et générer un document PDF à partir d'un contenu HTML.
Imports et configuration : déclarations d'importation fastparquet et IronPDF pour la manipulation de données, pour la lecture et l'écriture de fichiers Parquet et pour la génération de PDF respectivement.
Réglage de la clé de licence : Définissez la clé de licence d'IronPDF pour activer ses fonctions.
Création d'un échantillon de DataFrame : Définir un échantillon de DataFrame(\N-df\N- \N- \N) contenant des informations sur les personnes(nom, âge, ville).
Écriture d'un DataFrame dans Parquet : Écriture du DataFrame \Ndf\N dans un fichier Parquet nommé \Nexemple.parquet\N.
Lecture à partir d'un fichier Parquet : Lire les données du fichier Parquet(\Exemple de parquet) dans un DataFrame(\N-df_read\N-df_read\N-df_read\N-df_read\N-df_read\N).
Générer un PDF à partir de HTML : Initialiser une instance de ChromePdfRenderer en utilisant IronPDF.
Chaîne HTML : Construire une chaîne HTML(\N- Contenu) qui comprend un titre(`
`) afficher le DataFrame original(\N-df\N- \N- \N) et le DataFrame lu à partir du fichier Parquet(\N-df_read\N-df_read\N-df_read\N-df_read\N-df_read\N).
`pdf = renderer.RenderHtmlAsPdf(contenu)` : Rend le contenu HTML(\N- Contenu) en tant que document PDF à l'aide d'IronPDF.
`pdf.SaveAs("Demo-FastParquet.pdf")` : Enregistre le document PDF généré sous le nom \NDemo-FastParquet.pdf\N.
Le code démontre un exemple de code pour FastParquet, puis il intègre de manière transparente les capacités de traitement des données avec la génération de PDF, ce qui le rend utile pour créer des rapports ou des documents basés sur des données stockées dans des fichiers Parquet.
IronPDF page.
Placez la clé de licence au début du script avant de l'utiliserPaquet IronPDF:
from ironpdf import *
# Apply your license key
License.LicenseKey = "key"
fastparquet est une bibliothèque puissante et efficace pour travailler avec des fichiers parquet en Python. Son intégration avec Python et Dask en fait un excellent choix pour traiter les grands ensembles de données dans un flux de travail big data basé sur Python. IronPDF est une bibliothèque Python robuste qui facilite la création, la manipulation et le rendu de documents PDF directement à partir d'applications Python. Il simplifie des tâches telles que la conversion de contenu HTML en documents PDF, la création de formulaires interactifs et l'exécution de diverses manipulations PDF telles que la fusion de fichiers ou l'ajout de filigranes. IronPDF s'intègre parfaitement aux cadres et environnements Python existants, offrant aux développeurs une solution polyvalente pour générer et personnaliser des documents PDF de manière dynamique. Avec les données fastparquet et IronPDF, la manipulation du format de fichier parquet et la génération de PDF peuvent être effectuées de manière transparente.
IronPDF offre une documentation complète et des exemples de code pour aider les développeurs à tirer le meilleur parti de ses fonctionnalités. Pour plus d'informations, veuillez vous référer à lala documentation etexemple de code pages.
9 produits de l'API .NET pour vos documents de bureau