在生產環境中測試,無水印。
在任何需要的地方都能運行。
獲得 30 天的全功能產品。
在幾分鐘內上手運行。
試用產品期間完全訪問我們的支援工程團隊
fastparquet 是一個專為處理 Parquet 檔案格式而設計的 Python 函式庫,該格式常用於大數據工作流程中。 它能很好地與其他基於 Python 的數據處理工具,如 Dask 和 Pandas 集成。 讓我們探索其功能並查看一些程式碼範例。 在本文的後面部分,我們還將學習IronPDF,這是一個來自Iron Software的 PDF 生成庫。
fastparquet 高效並支援多種 Parquet 功能。 其一些主要功能包括:
輕鬆讀取和寫入Parquet文件及其他數據文件。
無縫地使用 Pandas DataFrame 和 Dask 進行平行處理。
支持資料文件中的各種壓縮算法,如 gzip、snappy、brotli、lz4 和 zstandard。
優化以使用 Parquet 列式檔案格式和指向檔案的元資料檔案來儲存和檢索大型數據集或數據文件。
您可以使用 pip 安裝fastparquet:
pip install fastparquet
或者使用 conda:
conda install -c conda-forge fastparquet
這裡有個簡單的範例來幫助你開始使用fastparquet。
您可以將 Pandas DataFrame 寫入 Parquet 文件:
import pandas as pd
import fastparquet
# Create a sample DataFrame
df = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
# Write the DataFrame to single output file using single file path
df.to_parquet('example.parquet', engine='fastparquet')
# Display message
print("DataFrame successfully written to 'example.parquet'.")
您可以將 Parquet 文件讀入 Pandas DataFrame:
import pandas as pd
import fastparquet
# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')
# Display the DataFrame
print(df.head())
import fastparquet as fp
# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
fastparquet Python 與Dask 整合良好,適用於並行處理大型數據集:
import dask.dataframe as dd
# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')
# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()
# Display the result for simple data types
print(result)
您可以在寫入 Parquet 文件時指定不同的壓縮算法:
import pandas as pd
import fastparquet
# Create a sample DataFrame
df = pd.DataFrame({
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35]
})
# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
IronPDF 是一個強大的 Python 庫,專為生成、修改及以數位方式簽署從 HTML、CSS、圖像和 JavaScript 生成的 PDF 文件而設計。 它在性能上表現出色,同時保持較小的記憶體佔用。 以下是其主要功能:
使用 IronPDF 將 HTML 文件、HTML 字串和網址轉換為 PDF 文件。 例如,使用 Chrome PDF 渲染器輕鬆地將網頁轉換為 PDF。
兼容 Windows、Mac、Linux 和各種雲端平台的 Python 3+。 IronPDF 也可用於 .NET、Java、Python 和 Node.js 環境。
修改文件屬性,通過密碼保護和權限增強安全性,並使用IronPDF將數位簽章整合到PDF中。
透過自訂頁眉、頁腳,頁碼及可調整的邊距來裁剪PDF。 它支持響應式佈局並適應自定義紙張尺寸。
符合 PDF 標準,如 PDF/A 和 PDF/UA。 它能處理 UTF-8 字元編碼,並有效地管理圖像、CSS 樣式表和字體等資產。
IronPDF 以 .NET 6.0 為基礎技術。 因此,請確保您的系統上已安裝.NET 6.0 runtime。
Python 3.0+:確保已安裝 Python 版本 3 或更高版本。
# install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
以下程式碼範例展示了在 Python 中同時使用 fastparquet 和 IronPDF:
import pandas as pd
import fastparquet as fp
from ironpdf import *
# Apply your license key
License.LicenseKey = "your Key"
# Sample DataFrame
data = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)
# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()
# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:"+"</p>"
content += "<p>"+f"{str(df)}"+"</p>"
content += "<p> DataFrame read from Parquet file:"+"</p>"
content += "<p>"+f"{str(df_read)}"+"</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("Demo-FastParquet.pdf")
此代碼片段演示如何利用多個 Python 庫來操作數據並從 HTML 內容生成 PDF 文檔。
導入和設置:用于數據處理的 fastparquet 導入和 IronPDF 導入語句,分別用於讀取和寫入 Parquet 文件以及生成 PDF。
設置許可金鑰:設置IronPDF的許可金鑰,以啟用其功能。
創建樣本資料框:定義一個樣本資料框(df
),包含有關個人(姓名、年齡、城市)的資訊。
將 DataFrame 寫入 Parquet:將 DataFrame `df` 寫入名為 `example.parquet` 的 Parquet 文件。
從 Parquet 檔案讀取:將 Parquet 檔案(`example.parquet`)中的數據讀回至 DataFrame(`df_read`)。
從 HTML 生成 PDF:使用 IronPDF 初始化一個 ChromePdfRenderer 實例。
HTML 字串:構建一個包含標題(`\
`)的 HTML 字串(`content`),顯示原始的 DataFrame(`df`)和從 Parquet 文件讀取的 DataFrame(`df_read`)。
`pdf = renderer.RenderHtmlAsPdf(content)`:使用 IronPDF 將 HTML 內容 (`content`) 渲染為 PDF 文件。
`pdf.SaveAs("Demo-FastParquet.pdf")`:將生成的 PDF 文件儲存為 `Demo-FastParquet.pdf`。
程式碼展示了FastParquet的範例代碼,然後將數據處理功能與PDF生成無縫整合,使其在基於parquet文件中存儲的數據創建報告或文檔時非常有用。
IronPDF 頁面。
將授權碼放在腳本的開頭,在使用IronPDF package之前:
from ironpdf import *
# Apply your license key
License.LicenseKey = "key"
fastparquet 是一個強大且高效的庫,用於在 Python 中處理 parquet 文件。 與 Pandas 和 Dask 的集成使其成為在基於 Python 的大數據工作流程中處理大型數據集的理想選擇。 IronPDF 是一個強大的 Python 程式庫,能夠直接從 Python 應用程式創建、操作和呈現 PDF 文件。 它簡化了將 HTML 內容轉換為 PDF 文件、創建交互式表單以及執行各種 PDF 操作(如合併文件或添加水印)等任務。 IronPDF 無縫整合至現有的 Python 框架和環境中,為開發人員提供一個靈活的解決方案,以動態生成和自定義 PDF 文件。 結合fastparquet和IronPDF數據,對於parquet文件格式的操作和PDF生成可以無縫進行。