from ironpdf import *
# Instantiate Renderer
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
pdf = renderer.RenderHtmlAsPdf("<h1>Hello World</h1>")
# Export to a file or Stream
pdf.SaveAs("output.pdf")
# Advanced Example with HTML Assets
# Load external html assets: Images, CSS and JavaScript.
# An optional BasePath 'C:\site\assets\' is set as the file location to load assets from
myAdvancedPdf = renderer.RenderHtmlAsPdf("<img src='icons/iron.png'>", r"C:\site\assets")
myAdvancedPdf.SaveAs("html-with-assets.pdf")
fastparquet Python (Comment ça marche pour les développeurs)
Regan Pun
août 13, 2024
Partager:
Introduction
fastparquet est une bibliothèque Python conçue pour gérer le format de fichier Parquet, qui est couramment utilisé dans les flux de travail du big data. Il s'intègre bien avec d'autres outils de traitement de données basés sur Python, comme Dask et Pandas. Explorons ses fonctionnalités et voyons quelques exemples de code. Dans la suite de cet article, nous aborderons également les sujets suivantsIronPDF, une bibliothèque de génération de PDF deIron Software.
Aperçu de fastparquet
fastparquet est efficace et prend en charge un large éventail de fonctionnalités Parquet. Voici quelques-unes de ses principales caractéristiques :
Lecture et écriture des fichiers Parquet
Lire et écrire facilement dans des fichiers Parquet et d'autres fichiers de données.
Intégration avec Pandas et Dask
Travailler en toute transparence avec Pandas DataFrames et Dask pour le traitement parallèle.
Soutien à la compression
Prend en charge divers algorithmes de compression tels que gzip, snappy, brotli, lz4 et zstandard dans les fichiers de données.
Stockage efficace
Optimisé pour le stockage et l'extraction de grands ensembles de données ou de fichiers de données utilisant le format de fichier en colonnes Parquet et le fichier de métadonnées pointant vers le fichier.
Installation
Vous pouvez installerfastparquet en utilisant pip :
pip install fastparquet
Ou en utilisant conda :
conda install -c conda-forge fastparquet
conda install -c conda-forge fastparquet
PYTHON
Utilisation de base
Voici un exemple simple pour commencer à utiliser fastparquet.
Écriture d'un fichier Parquet
Vous pouvez écrire un DataFrame Pandas dans un fichier Parquet :
import pandas as pd
import fastparquet
# Create a sample DataFrame
df = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
# Write the DataFrame to single output file using single file path
df.to_parquet('example.parquet', engine='fastparquet')
# Display message
print("DataFrame successfully written to 'example.parquet'.")
import pandas as pd
import fastparquet
# Create a sample DataFrame
df = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
# Write the DataFrame to single output file using single file path
df.to_parquet('example.parquet', engine='fastparquet')
# Display message
print("DataFrame successfully written to 'example.parquet'.")
PYTHON
Sortie
Lecture d'un fichier Parquet
Vous pouvez lire un fichier Parquet dans un DataFrame Pandas :
import pandas as pd
import fastparquet
# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')
# Display the DataFrame
print(df.head())
import pandas as pd
import fastparquet
# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')
# Display the DataFrame
print(df.head())
PYTHON
Sortie
Affichage des métadonnées des fichiers Parquet
import fastparquet as fp
# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
import fastparquet as fp
# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
PYTHON
Sortie
Fonctionnalités avancées
Utilisation de Dask pour le traitement parallèle
fastparquet python s'intègre bien avecDask pour traiter de grands ensembles de données en parallèle :
import dask.dataframe as dd
# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')
# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()
# Display the result for simple data types
print(result)
import dask.dataframe as dd
# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')
# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()
# Display the result for simple data types
print(result)
PYTHON
Personnalisation de la compression
Vous pouvez spécifier différents algorithmes de compression lors de l'écriture de fichiers Parquet :
import pandas as pd
import fastparquet
# Create a sample DataFrame
df = pd.DataFrame({
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35]
})
# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
import pandas as pd
import fastparquet
# Create a sample DataFrame
df = pd.DataFrame({
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35]
})
# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
PYTHON
Présentation d'IronPDF
IronPDF est une bibliothèque Python robuste conçue pour générer, modifier et signer numériquement des documents PDF dérivés de HTML, CSS, images et JavaScript. Il excelle en termes de performances tout en conservant une empreinte mémoire minimale. Voici ses principales caractéristiques :
1. Conversion de HTML en PDF
Convertissez des fichiers HTML, des chaînes HTML et des URL en documents PDF avec IronPDF. Par exemple, sans efforttransformer des pages web en PDF en utilisant le moteur de rendu PDF de Chrome.
2. Support multiplateforme
Compatible avec Python 3+ sur Windows, Mac, Linux et diverses plateformes Cloud. IronPDF est également accessible pour les environnements .NET, Java, Python et Node.js.
Personnaliser les PDF avec desen-têtes, pieds de page, numéros de pageet des marges ajustables. Il prend en charge les mises en page réactives et s'adapte aux formats de papier personnalisés.
5. Respect des normes
Conforme aux normes PDF telles que PDF/A et PDF/UA. Il prend en charge le codage des caractères UTF-8 et gère efficacement les ressources telles que les images, les feuilles de style CSS et les polices.
Générer des documents PDF en utilisant IronPDF et fastparquet
Conditions préalables pour IronPDF for Python
IronPDF repose sur la technologie .NET 6.0. Veillez donc à ce que.NET 6.0 runtime est installé sur votre système.
Python 3.0+ : S'assurer que la version 3 de Python ou une version ultérieure est installée.
pip : Installer le programme d'installation de paquets Pythontuyau pour l'installation du paquet IronPDF.
Installation
# install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
# install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
PYTHON
Exemple de code
L'exemple de code suivant démontre l'utilisation conjointe de fastparquet et IronPDF for Python :
import pandas as pd
import fastparquet as fp
from ironpdf import *
# Apply your license key
License.LicenseKey = "your Key"
# Sample DataFrame
data = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)
# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()
# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:"+"</p>"
content += "<p>"+f"{str(df)}"+"</p>"
content += "<p> DataFrame read from Parquet file:"+"</p>"
content += "<p>"+f"{str(df_read)}"+"</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("Demo-FastParquet.pdf")
import pandas as pd
import fastparquet as fp
from ironpdf import *
# Apply your license key
License.LicenseKey = "your Key"
# Sample DataFrame
data = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)
# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()
# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:"+"</p>"
content += "<p>"+f"{str(df)}"+"</p>"
content += "<p> DataFrame read from Parquet file:"+"</p>"
content += "<p>"+f"{str(df_read)}"+"</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("Demo-FastParquet.pdf")
PYTHON
Explication du code
Cet extrait de code montre comment utiliser plusieurs bibliothèques Python pour manipuler des données et générer un document PDF à partir d'un contenu HTML.
Imports et configuration : déclarations d'importation fastparquet et IronPDF pour la manipulation de données, pour la lecture et l'écriture de fichiers Parquet et pour la génération de PDF respectivement.
Réglage de la clé de licence : Définissez la clé de licence d'IronPDF pour activer ses fonctions.
Création d'un échantillon de DataFrame : Définir un échantillon de DataFrame(\N-df\N- \N- \N) contenant des informations sur les personnes(nom, âge, ville).
Écriture d'un DataFrame dans Parquet : Écriture du DataFrame \Ndf\N dans un fichier Parquet nommé \Nexemple.parquet\N.
Lecture à partir d'un fichier Parquet : Lire les données du fichier Parquet(\Exemple de parquet) dans un DataFrame(\N-df_read\N-df_read\N-df_read\N-df_read\N-df_read\N).
Générer un PDF à partir de HTML : Initialiser une instance de ChromePdfRenderer en utilisant IronPDF.
Chaîne HTML : Construire une chaîne HTML(\N- Contenu) qui comprend un titre(`
`) et des paragraphes(`
`) afficher le DataFrame original(\N-df\N- \N- \N) et le DataFrame lu à partir du fichier Parquet(\N-df_read\N-df_read\N-df_read\N-df_read\N-df_read\N).
`pdf = renderer.RenderHtmlAsPdf(contenu)` : Rend le contenu HTML(\N- Contenu) en tant que document PDF à l'aide d'IronPDF.
`pdf.SaveAs("Demo-FastParquet.pdf")` : Enregistre le document PDF généré sous le nom \NDemo-FastParquet.pdf\N.
Le code démontre un exemple de code pour FastParquet, puis il intègre de manière transparente les capacités de traitement des données avec la génération de PDF, ce qui le rend utile pour créer des rapports ou des documents basés sur des données stockées dans des fichiers Parquet.
Placez la clé de licence au début du script avant de l'utiliserPaquet IronPDF:
from ironpdf import *
# Apply your license key
License.LicenseKey = "key"
from ironpdf import *
# Apply your license key
License.LicenseKey = "key"
PYTHON
Conclusion
fastparquet est une bibliothèque puissante et efficace pour travailler avec des fichiers parquet en Python. Son intégration avec Python et Dask en fait un excellent choix pour traiter les grands ensembles de données dans un flux de travail big data basé sur Python. IronPDF est une bibliothèque Python robuste qui facilite la création, la manipulation et le rendu de documents PDF directement à partir d'applications Python. Il simplifie des tâches telles que la conversion de contenu HTML en documents PDF, la création de formulaires interactifs et l'exécution de diverses manipulations PDF telles que la fusion de fichiers ou l'ajout de filigranes. IronPDF s'intègre parfaitement aux cadres et environnements Python existants, offrant aux développeurs une solution polyvalente pour générer et personnaliser des documents PDF de manière dynamique. Avec les données fastparquet et IronPDF, la manipulation du format de fichier parquet et la génération de PDF peuvent être effectuées de manière transparente.
IronPDF offre une documentation complète et des exemples de code pour aider les développeurs à tirer le meilleur parti de ses fonctionnalités. Pour plus d'informations, veuillez vous référer à lala documentation etexemple de code pages.
Regan est diplômé de l'université de Reading, où il a obtenu une licence en ingénierie électronique. Avant de rejoindre Iron Software, il s'était concentré sur une seule tâche. Ce qu'il apprécie le plus chez Iron Software, c'est la diversité des tâches qu'il peut accomplir, qu'il s'agisse d'apporter une valeur ajoutée aux ventes, à l'assistance technique, au développement de produits ou à la commercialisation. Il aime comprendre comment les développeurs utilisent la bibliothèque d'Iron Software et utiliser ces connaissances pour améliorer continuellement la documentation et développer les produits.
< PRÉCÉDENT Flask Python (Comment ça marche pour les développeurs)
SUIVANT > Keras Python (Comment ça marche pour les développeurs)
Des millions d'ingénieurs dans le monde entier lui font confiance
Réservez une démo en direct gratuite
Réservez une démonstration personnelle de 30 minutes.
Pas de contrat, pas de détails de carte, pas d'engagements.
Voici ce à quoi vous pouvez vous attendre :
Une démonstration en direct de notre produit et de ses principales fonctionnalités
Obtenez des recommandations de fonctionnalités spécifiques au projet
Toutes vos questions trouvent réponse pour vous assurer de disposer de toutes les informations dont vous avez besoin. (Aucun engagement de votre part.)
CHOISIR L'HEURE
VOS INFORMATIONS
Réservez votre démo en direct gratuite
Fiable par plus de 2 millions d'ingénieurs dans le monde entier