fastparquet Python(開發者使用指南)
fastparquet是一個 Python 函式庫,旨在處理 Parquet 檔案格式,該格式常用於大數據工作流程。 它能很好地與其他基於 Python 的資料處理工具(如 Dask 和 Pandas)整合。 讓我們來探索它的功能並看一些程式碼範例。 本文稍後也將介紹IronPDF ,這是Iron Software出品的 PDF 產生庫。
快速拼花地板概述
fastparquet高效且支援多種 Parquet 功能。 它的一些主要特點包括:
閱讀並寫入鑲木地板文件
可以輕鬆讀取和寫入 Parquet 檔案和其他資料檔案。
與 Pandas 和 Dask 集成
無縫使用 Pandas DataFrames 和 Dask 進行平行處理。
壓縮支援
支援資料檔案中的各種壓縮演算法,如 gzip、snappy、brotli、lz4 和 zstandard。
高效率儲存
針對使用 parquet 列式檔案格式和指向檔案的元資料檔案儲存和檢索大型資料集或資料檔案進行了最佳化。
安裝
您可以使用 pip 安裝fastparquet :
pip install fastparquetpip install fastparquet或使用 conda:
conda install -c conda-forge fastparquetconda install -c conda-forge fastparquet基本用法
這裡有一個簡單的例子,可以幫助你開始使用 fastparquet。
撰寫 Parquet 文件
您可以將 Pandas DataFrame 寫入 Parquet 檔案:
import pandas as pd
# Create a sample DataFrame
df = pd.DataFrame({
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
})
# Write the DataFrame to a Parquet file
df.to_parquet('example.parquet', engine='fastparquet')
# Display confirmation message
print("DataFrame successfully written to 'example.parquet'.")import pandas as pd
# Create a sample DataFrame
df = pd.DataFrame({
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
})
# Write the DataFrame to a Parquet file
df.to_parquet('example.parquet', engine='fastparquet')
# Display confirmation message
print("DataFrame successfully written to 'example.parquet'.")輸出
fastparquet Python(開發者使用指南):圖 1 - 控制台輸出
讀取鑲木地板文件
您可以將 Parquet 檔案讀入 Pandas DataFrame:
import pandas as pd
# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')
# Display the DataFrame
print(df.head())import pandas as pd
# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')
# Display the DataFrame
print(df.head())輸出
顯示 Parquet 檔案元數據
import fastparquet as fp
# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)import fastparquet as fp
# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)輸出
進階功能
使用 Dask 進行平行處理
fastparquet 與Dask整合良好,可以並行處理大型資料集:
import dask.dataframe as dd
# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')
# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()
# Display the result
print(result)import dask.dataframe as dd
# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')
# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()
# Display the result
print(result)自訂壓縮
寫入 Parquet 檔案時,您可以指定不同的壓縮演算法:
import pandas as pd
# Create a sample DataFrame
df = pd.DataFrame({
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35]
})
# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')import pandas as pd
# Create a sample DataFrame
df = pd.DataFrame({
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35]
})
# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')IronPDF簡介
fastparquet Python(開發者使用方法):圖 4 - IronPDF for Python:Python PDF 函式庫
IronPDF是一個強大的 Python 庫,專為生成、修改和對源自 HTML、CSS、圖像和 JavaScript 的 PDF 文件進行數位簽名而設計。 它在保持最小記憶體佔用的同時,實現了卓越的效能。 它的主要特點如下:
1. HTML 轉 PDF
使用 IronPDF 將 HTML 檔案、HTML 字串和 URL 轉換為 PDF 文件。 例如,使用 Chrome PDF 渲染器可以輕鬆地將網頁渲染成 PDF 。
2. 跨平台支持
相容於 Windows、Mac、Linux 和各種雲端平台上的 Python 3+。 IronPDF 也適用於 .NET、Java、Python 和 Node.js 環境。
3. 編輯和簽署
使用 IronPDF 修改文件屬性,透過密碼保護和權限增強安全性,並將數位簽章整合到您的 PDF 中。
4. 頁面範本和設置
使用自訂頁首、頁尾、頁碼和可調整的邊距來自訂 PDF 檔案。 它支援響應式佈局,並可適應自訂紙張尺寸。
5. 標準符合性
符合 PDF/A 和 PDF/UA 等 PDF 標準。 它能夠處理 UTF-8 字元編碼,並有效管理圖像、CSS 樣式表和字體等資源。
使用 IronPDF 和 fastparquet 產生 PDF 文檔
IronPDF for Python 的先決條件
- IronPDF以 .NET 6.0 為底層技術。 因此,請確保您的系統上已安裝.NET 6.0 執行階段環境。
- Python 3.0+:請確保已安裝 Python 3 或更高版本。
- pip:安裝 Python 套件安裝程式pip以安裝 IronPDF 套件。
安裝
# Install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf# Install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf程式碼範例
以下程式碼範例示範如何在 Python 中同時使用 fastparquet 和 IronPDF:
import pandas as pd
import fastparquet as fp
from ironpdf import ChromePdfRenderer, License
# Apply your license key for IronPDF
License.LicenseKey = "your Key"
# Sample DataFrame
data = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)
# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()
# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)
# Initialize a ChromePdfRenderer instance
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using IronPDF
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:</p>"
content += "<p>" + f"{str(df)}" + "</p>"
content += "<p> DataFrame read from Parquet file:</p>"
content += "<p>" + f"{str(df_read)}" + "</p>"
# Render the HTML content to a PDF
pdf = renderer.RenderHtmlAsPdf(content)
# Export the PDF to a file
pdf.SaveAs("Demo-FastParquet.pdf")import pandas as pd
import fastparquet as fp
from ironpdf import ChromePdfRenderer, License
# Apply your license key for IronPDF
License.LicenseKey = "your Key"
# Sample DataFrame
data = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)
# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()
# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)
# Initialize a ChromePdfRenderer instance
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using IronPDF
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:</p>"
content += "<p>" + f"{str(df)}" + "</p>"
content += "<p> DataFrame read from Parquet file:</p>"
content += "<p>" + f"{str(df_read)}" + "</p>"
# Render the HTML content to a PDF
pdf = renderer.RenderHtmlAsPdf(content)
# Export the PDF to a file
pdf.SaveAs("Demo-FastParquet.pdf")程式碼解釋
這段程式碼片段示範如何利用多個 Python 程式庫來操作數據,並從 HTML 內容產生 PDF 文件。
1.匯入和設定:匯入資料操作、讀取和寫入 Parquet 檔案以及產生 PDF 所需的庫。
2.設定許可證密鑰:設定 IronPDF 的許可證密鑰,啟用其全部功能。
3.建立範例資料框:定義一個包含個人資訊(姓名、年齡、城市)的範例資料框( df )。
4.將 DataFrame 寫入 Parquet:將 DataFrame df寫入名為example.parquet的 Parquet 檔案。
5.從 Parquet 檔案讀取資料:將 Parquet 檔案( example.parquet )中的資料讀回 DataFrame( df_read )。
6.從 HTML 產生 PDF:
- 使用 IronPDF 初始化 ChromePdfRenderer 實例。
- 建立一個包含標題的 HTML 字串(
content)(<h1>)和段落(<p>) 顯示原始 DataFrame (df) 和從 Parquet 檔案讀取的 DataFrame (df_read)。 - 使用 IronPDF 將 HTML 內容渲染為 PDF 文件。
- 將產生的 PDF 文件另存為
Demo-FastParquet.pdf。
程式碼示範了 FastParquet 的範例程式碼,將資料處理功能與 PDF 產生結合,使其可用於建立基於儲存在 parquet 檔案中的資料的報告或文件。
輸出
fastparquet Python(開發者使用方法):圖 5 - 控制台輸出顯示原始 Dataframe 和從 Parquet 檔案讀取的 Dataframe 中的資料。
輸出 PDF
IronPDF 許可
有關許可信息,請訪問IronPDF許可頁面。
在使用IronPDF 軟體包之前,請將許可證密鑰放在腳本的開頭:
from ironpdf import License
# Apply your license key
License.LicenseKey = "your Key"from ironpdf import License
# Apply your license key
License.LicenseKey = "your Key"結論
fastparquet是一個功能強大且高效的 Python 函式庫,用於處理 parquet 檔案。 它與 Pandas 和 Dask 的整合使其成為在基於 Python 的大數據工作流程中處理大型資料集的絕佳選擇。 IronPDF是一個強大的 Python 庫,它可以直接從 Python 應用程式建立、操作和渲染 PDF 文件。 它簡化了諸如將 HTML 內容轉換為 PDF 文件、建立互動式表單以及執行各種 PDF 操作(如合併文件或添加浮水印)等任務。 IronPDF可與現有的 Python 框架和環境無縫集成,為開發人員提供動態生成和自訂 PDF 文件的多功能解決方案。 IronPDF與fastparquet結合使用,可實現 parquet 檔案格式中的無縫資料操作和 PDF 產生。







