在實際環境中測試
在生產環境中測試無浮水印。
在任何需要的地方都能運作。
fastparquet是一個專為處理 Parquet 文件格式設計的 Python 函式庫,該格式通常用於大數據工作流程中。 它能很好地與其他基於 Python 的數據處理工具,如 Dask 和 Pandas 集成。 讓我們探索其功能並查看一些程式碼範例。 稍後在本文中,我們還將了解IronPDF,來自 的 PDF 生成庫Iron Software.
fastparquet功能高效,支持多種Parquet功能。 其一些主要功能包括:
輕鬆讀取和寫入Parquet文件及其他數據文件。
無縫地使用 Pandas DataFrame 和 Dask 進行平行處理。
支持資料文件中的各種壓縮算法,如 gzip、snappy、brotli、lz4 和 zstandard。
優化以使用 Parquet 列式檔案格式和指向檔案的元資料檔案來儲存和檢索大型數據集或數據文件。
您可以安裝fastparquet使用 pip:
pip install fastparquet
或者使用 conda:
conda install -c conda-forge fastparquet
這裡有個簡單的範例來幫助你開始使用fastparquet。
您可以將 Pandas DataFrame 寫入 Parquet 文件:
import pandas as pd
import fastparquet
# Create a sample DataFrame
df = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
# Write the DataFrame to single output file using single file path
df.to_parquet('example.parquet', engine='fastparquet')
# Display message
print("DataFrame successfully written to 'example.parquet'.")
您可以將 Parquet 文件讀入 Pandas DataFrame:
import pandas as pd
import fastparquet
# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')
# Display the DataFrame
print(df.head())
import fastparquet as fp
# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
fastparquet python 與以下內容整合良好Dask用於並行處理大型數據集:
import dask.dataframe as dd
# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')
# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()
# Display the result for simple data types
print(result)
您可以在寫入 Parquet 文件時指定不同的壓縮算法:
import pandas as pd
import fastparquet
# Create a sample DataFrame
df = pd.DataFrame({
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35]
})
# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
IronPDF是一個強大的Python庫,專為生成、修改和數位簽署來自HTML、CSS、圖像和JavaScript的PDF文件而打造。 它在性能上表現出色,同時保持較小的記憶體佔用。 以下是其主要功能:
使用 IronPDF 將 HTML 文件、HTML 字串和網址轉換為 PDF 文件。 例如,輕鬆地將網頁渲染為PDF使用 Chrome PDF 渲染器。
兼容 Windows、Mac、Linux 和各種雲端平台的 Python 3+。 IronPDF 也可用於 .NET、Java、Python 和 Node.js 環境。
修改文件屬性,提高安全性,使用密碼保護和權限,並整合數位簽章使用 IronPDF 插入至您的 PDF 中。
根據需求定製 PDF頁眉,頁腳, 頁碼,和可調整邊距。 它支持響應式佈局並適應自定義紙張尺寸。
符合 PDF 標準,如 PDF/A 和 PDF/UA。 它能處理 UTF-8 字元編碼,並有效地管理圖像、CSS 樣式表和字體等資產。
IronPDF基於.NET 6.0作為其底層技術。 因此,請確保.NET 6.0 執行階段已安裝在您的系統上。
Python 3.0+:確保已安裝 Python 版本 3 或更高版本。
# install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
以下程式碼範例展示了在 Python 中同時使用 fastparquet 和 IronPDF:
import pandas as pd
import fastparquet as fp
from ironpdf import *
# Apply your license key
License.LicenseKey = "your Key"
# Sample DataFrame
data = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)
# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()
# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:"+"</p>"
content += "<p>"+f"{str(df)}"+"</p>"
content += "<p> DataFrame read from Parquet file:"+"</p>"
content += "<p>"+f"{str(df_read)}"+"</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("Demo-FastParquet.pdf")
此代碼片段演示如何利用多個 Python 庫來操作數據並從 HTML 內容生成 PDF 文檔。
導入和設置:fastparquet
導入和IronPDF導入語句用於資料操作,分別用於讀取和寫入Parquet文件以及生成PDF。
設定許可證密鑰:設定IronPDF的許可證密鑰,啟用其功能。
建立範例DataFrame:定義一個範例DataFrame(`df`)包含個人信息(名稱, 年齡, 城市).
將 DataFrame 寫入 Parquet:將 DataFrame `df` 寫入名為 `example.parquet` 的 Parquet 文件。
從 Parquet 檔案讀取:從 Parquet 檔案中讀取數據(example.parquet)返回到資料框(`df_read`).
從 HTML 生成 PDF:使用 IronPDF 初始化 ChromePdfRenderer 實例。
HTML 字串:構建一個 HTML 字串(內容
)包括標題(`
)顯示原始的 DataFrame(`df`)以及從 Parquet 文件讀取的 DataFrame(`df_read`).
`pdf = renderer.RenderHtmlAsPdf(內容)`:渲染HTML內容(內容
)使用 IronPDF 作為 PDF 文件。
`pdf.SaveAs("Demo-FastParquet.pdf")`: 將生成的 PDF 文件儲存為 `Demo-FastParquet.pdf`。
程式碼展示了FastParquet的範例代碼,然後將數據處理功能與PDF生成無縫整合,使其在基於parquet文件中存儲的數據創建報告或文檔時非常有用。
IronPDF頁面。
在使用前,將授權金鑰放置於腳本的開始處。IronPDF 套件:
from ironpdf import *
# Apply your license key
License.LicenseKey = "key"
fastparquet是一個強大且高效的庫,用於在 Python 中處理 parquet 檔案。 與 Pandas 和 Dask 的集成使其成為在基於 Python 的大數據工作流程中處理大型數據集的理想選擇。 IronPDF是一個強大的 Python 函式庫,可直接從 Python 應用程式中創建、操作和渲染 PDF 文件。 它簡化了將 HTML 內容轉換為 PDF 文件、創建交互式表單以及執行各種 PDF 操作(如合併文件或添加水印)等任務。 IronPDF與現有的 Python 框架和環境無縫整合,為開發人員提供生成和動態自定義 PDF 文件的多功能解決方案。 與 fastparquet 和 IronPDF 一起,對 Parquet 文件格式的數據操作和 PDF 生成可以無縫進行。