在實際環境中測試
在生產環境中測試無浮水印。
在任何需要的地方都能運作。
fastparquet 是一個專為處理Parquet文件格式設計的Python庫,該格式常用於大數據工作流程中。它能夠與其它基於Python的數據處理工具如Dask和Pandas良好集成。讓我們來探討它的功能並查看一些代碼示例。在本文的後面,我們還將了解 IronPDF,來自 的 PDF 生成庫 IronSoftware.
fastparquet 高效並支持各種 Parquet 功能。其主要功能包括:
輕鬆地讀取和寫入 Parquet 文件以及其他數據文件。
與 Pandas DataFrame 和 Dask 無縫合作以進行並行處理。
支援多種壓縮算法如gzip、snappy、brotli、lz4和zstandard在數據文件中。
優化用於使用Parquet列式文件格式和指向文件的元數據文件來存儲和檢索大型數據集或數據文件。
您可以安裝 fastparquet 使用 pip:
pip install fastparquet
或者使用 conda:
conda install -c conda-forge fastparquet
這是一個簡單的例子,可以幫助您快速開始使用fastparquet。
您可以將 Pandas DataFrame 寫入到 Parquet 文件中:
import pandas as pd
import fastparquet
# Create a sample DataFrame
df = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
# Write the DataFrame to single output file using single file path
df.to_parquet('example.parquet', engine='fastparquet')
# Display message
print("DataFrame successfully written to 'example.parquet'.")
您可以將 Parquet 檔案讀取到 Pandas DataFrame:
import pandas as pd
import fastparquet
# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')
# Display the DataFrame
print(df.head())
import fastparquet as fp
# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
fastparquet python 與 Dask 用於並行處理大型數據集:
import dask.dataframe as dd
# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')
# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()
# Display the result for simple data types
print(result)
您可以在寫入 Parquet 文件時指定不同的壓縮算法:
import pandas as pd
import fastparquet
# Create a sample DataFrame
df = pd.DataFrame({
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35]
})
# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
IronPDF 是一個強大的 Python 庫,用於從 HTML、CSS、圖像和 JavaScript 生成、修改和數位簽名 PDF 文件。它在性能方面表現出色,同時保持最小的記憶體佔用。以下是其主要功能:
使用 IronPDF 將 HTML 檔案、HTML 字串和 URL 轉換為 PDF 文件。例如,輕鬆地 將網頁渲染為PDF 使用 Chrome PDF 渲染器。
兼容 Windows、Mac、Linux 和各種雲平台上的 Python 3+。IronPDF 也適用於 .NET、Java、Python 和 Node.js 環境。
修改文件屬性,通過強化安全性 密碼保護和權限,並整合 數位簽章 使用 IronPDF 插入至您的 PDF 中。
使用自定義的 PDF 排版 頁眉,頁腳, 頁碼,可調整邊距。它支持響應式布局並適應自定義紙張尺寸。
符合PDF標準如PDF/A和PDF/UA。它處理UTF-8字符編碼並有效管理圖像、CSS樣式表和字體等資產。
IronPDF 依賴 .NET 6.0 作為其底層技術。因此,請確保 .NET 6.0 執行階段 已安裝在您的系統上。
Python 3.0+: 確保安裝Python 3或更高版本。
# install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
以下代碼範例展示了在 Python 中結合使用 fastparquet 和 IronPDF:
import pandas as pd
import fastparquet as fp
from ironpdf import *
# Apply your license key
License.LicenseKey = "your Key"
# Sample DataFrame
data = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)
# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()
# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:"+"</p>"
content += "<p>"+f"{str(df)}"+"</p>"
content += "<p> DataFrame read from Parquet file:"+"</p>"
content += "<p>"+f"{str(df_read)}"+"</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("Demo-FastParquet.pdf")
這段程式碼片段展示了如何利用幾個 Python 庫來操作數據並從 HTML 內容生成 PDF 文件。
導入和設置:fastparquet 導入和 IronPDF 導入語句分別用於數據操作、讀取和寫入 Parquet 文件以及 PDF 生成。!1. 設定授權金鑰:設定IronPDF的授權金鑰,以啟用其功能。!1. 創建示例DataFrame:定義一個示例DataFrame (`df`) 包含個人信息 (名稱, 年齡, 城市).<|vq_9533|>!1. 將 DataFrame 寫入 Parquet: 將 DataFrame `df` 寫入名為 `example.parquet` 的 Parquet 檔案中。!1. 從Parquet文件中讀取:從Parquet文件中讀取資料 (example.parquet) 返回到資料框 (`df_read`).<|vq_9533|>!1. 從HTML生成PDF:使用IronPDF初始化ChromePdfRenderer實例。
HTML字符串:構建一個HTML字符串 (內容
) 包括標題 (`
) 顯示原始的 DataFrame (`df`) 以及從 Parquet 文件讀取的 DataFrame (`df_read`).
`pdf = renderer.RenderHtmlAsPdf(內容)`:渲染HTML內容 (內容
) 以PDF文件的形式使用IronPDF。
代碼展示了一個 FastParquet 的範例代碼,然後它無縫整合了數據處理功能與 PDF 生成,這對於基於 parquet 文件中儲存的數據來创建報告或文件非常有用。
IronPDF 頁面。
在使用之前,請將許可證密鑰放在腳本的開頭。 IronPDF 套件:
from ironpdf import *
# Apply your license key
License.LicenseKey = "key"
fastparquet 是一個強大且高效的庫,用於在 Python 中處理 Parquet 文件。其與 Pandas 和 Dask 的整合,使其成為在基於 Python 的大數據工作流程中處理大型數據集的理想選擇。 IronPDF 是一個強大的 Python 庫,能夠直接從 Python 應用程式中創建、操作和呈現 PDF 文件。它簡化了許多任務,如將 HTML 內容轉換為 PDF 文件、創建互動表單以及執行各種 PDF 操作,如合併文件或添加水印。 IronPDF 與現有的 Python 框架和環境無縫整合,為開發人員提供了一個多功能的解決方案,可以動態生成和自定義 PDF 文件。結合 fastparquet 和 IronPDF 數據,對 parquet 文件格式的操作和 PDF 生成可以無縫完成。
IronPDF 提供了全面的文件和代碼範例,幫助開發者充分利用其特性。如需更多資訊,請參閱 文檔 和 程式碼範例 頁面。