PYTHON 幫助

fastparquet Python(它是如何為開發者工作的)

查克尼思·賓
查克尼思·賓
2024年8月13日
分享:

介紹

fastparquet 是一個專為處理 Parquet 檔案格式而設計的 Python 函式庫,該格式常用於大數據工作流程中。 它能很好地與其他基於 Python 的數據處理工具,如 Dask 和 Pandas 集成。 讓我們探索其功能並查看一些程式碼範例。 在本文的後面部分,我們還將學習IronPDF,這是一個來自Iron Software的 PDF 生成庫。

fastparquet 概覽

fastparquet 高效並支援多種 Parquet 功能。 其一些主要功能包括:

讀取和寫入 Parquet 文件

輕鬆讀取和寫入Parquet文件及其他數據文件。

與 Pandas 和 Dask 的整合

無縫地使用 Pandas DataFrame 和 Dask 進行平行處理。

壓縮支持

支持資料文件中的各種壓縮算法,如 gzip、snappy、brotli、lz4 和 zstandard。

高效儲存

優化以使用 Parquet 列式檔案格式和指向檔案的元資料檔案來儲存和檢索大型數據集或數據文件。

安裝

您可以使用 pip 安裝fastparquet

pip install fastparquet

或者使用 conda:

conda install -c conda-forge fastparquet
PYTHON

基本用法

這裡有個簡單的範例來幫助你開始使用fastparquet。

撰寫 Parquet 檔案

您可以將 Pandas DataFrame 寫入 Parquet 文件:

import pandas as pd
import fastparquet
# Create a sample DataFrame
df = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
# Write the DataFrame to single output file using single file path
df.to_parquet('example.parquet', engine='fastparquet')
# Display message
print("DataFrame successfully written to 'example.parquet'.")
PYTHON

輸出

fastparquet Python(開發人員如何運作):圖1 - 控制台輸出

讀取 Parquet 文件

您可以將 Parquet 文件讀入 Pandas DataFrame:

import pandas as pd
import fastparquet
# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')
# Display the DataFrame
print(df.head())
PYTHON

輸出

fastparquet Python(對開發人員的運作方式):圖2 - 控制台輸出

顯示 Parquet 文件元數據

import fastparquet as fp
# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
PYTHON

輸出

fastparquet Python(它如何為開發者工作):圖 3 - 控制台輸出

進階功能

使用 Dask 進行平行處理

fastparquet Python 與Dask 整合良好,適用於並行處理大型數據集:

import dask.dataframe as dd
# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')
# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()
# Display the result for simple data types
print(result)
PYTHON

自訂壓縮

您可以在寫入 Parquet 文件時指定不同的壓縮算法:

import pandas as pd
import fastparquet
# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
})
# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
PYTHON

介紹 IronPDF

fastparquet Python(開發者如何使用):圖4 - IronPDF for Python:Python PDF Library

IronPDF 是一個強大的 Python 庫,專為生成、修改及以數位方式簽署從 HTML、CSS、圖像和 JavaScript 生成的 PDF 文件而設計。 它在性能上表現出色,同時保持較小的記憶體佔用。 以下是其主要功能:

HTML 轉換為 PDF

使用 IronPDF 將 HTML 文件、HTML 字串和網址轉換為 PDF 文件。 例如,使用 Chrome PDF 渲染器輕鬆地將網頁轉換為 PDF

2. 跨平台支持

兼容 Windows、Mac、Linux 和各種雲端平台的 Python 3+。 IronPDF 也可用於 .NET、Java、Python 和 Node.js 環境。

3. 編輯和簽名

修改文件屬性,通過密碼保護和權限增強安全性,並使用IronPDF將數位簽章整合到PDF中。

4. 頁面模板與設置

透過自訂頁眉、頁腳頁碼及可調整的邊距來裁剪PDF。 它支持響應式佈局並適應自定義紙張尺寸。

5. 標準合規性

符合 PDF 標準,如 PDF/A 和 PDF/UA。 它能處理 UTF-8 字元編碼,並有效地管理圖像、CSS 樣式表和字體等資產。

使用 IronPDF 和 fastparquet 生成 PDF 文件

IronPDF for Python 先決條件

  1. IronPDF 以 .NET 6.0 為基礎技術。 因此,請確保您的系統上已安裝.NET 6.0 runtime

  2. Python 3.0+:確保已安裝 Python 版本 3 或更高版本。

  3. pip:安裝 Python 軟體包管理工具 pip 來安裝 IronPDF 軟體包。

安裝

# install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
PYTHON

程式碼範例

以下程式碼範例展示了在 Python 中同時使用 fastparquet 和 IronPDF:

import pandas as pd
import fastparquet as fp
from ironpdf import *     
# Apply your license key
License.LicenseKey = "your Key"
# Sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)
# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()
# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:"+"</p>"
content += "<p>"+f"{str(df)}"+"</p>"
content += "<p> DataFrame read from Parquet file:"+"</p>"
content += "<p>"+f"{str(df_read)}"+"</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("Demo-FastParquet.pdf")
PYTHON

程式碼說明

此代碼片段演示如何利用多個 Python 庫來操作數據並從 HTML 內容生成 PDF 文檔。

  1. 導入和設置:用于數據處理的 fastparquet 導入和 IronPDF 導入語句,分別用於讀取和寫入 Parquet 文件以及生成 PDF。

  2. 設置許可金鑰:設置IronPDF的許可金鑰,以啟用其功能。

  3. 創建樣本資料框:定義一個樣本資料框(df),包含有關個人(姓名、年齡、城市)的資訊。

  4. 將 DataFrame 寫入 Parquet:將 DataFrame `df` 寫入名為 `example.parquet` 的 Parquet 文件。

  5. 從 Parquet 檔案讀取:將 Parquet 檔案(`example.parquet`)中的數據讀回至 DataFrame(`df_read`)。

  6. 從 HTML 生成 PDF:使用 IronPDF 初始化一個 ChromePdfRenderer 實例。

  7. HTML 字串:構建一個包含標題(`\

    `)和段落(`\

    `)的 HTML 字串(`content`),顯示原始的 DataFrame(`df`)和從 Parquet 文件讀取的 DataFrame(`df_read`)。

  8. `pdf = renderer.RenderHtmlAsPdf(content)`:使用 IronPDF 將 HTML 內容 (`content`) 渲染為 PDF 文件。

  9. `pdf.SaveAs("Demo-FastParquet.pdf")`:將生成的 PDF 文件儲存為 `Demo-FastParquet.pdf`。

    程式碼展示了FastParquet的範例代碼,然後將數據處理功能與PDF生成無縫整合,使其在基於parquet文件中存儲的數據創建報告或文檔時非常有用。

輸出

fastparquet Python(它如何為開發人員工作):圖5 - 控制台輸出顯示來自原始Dataframe和從Parquet檔案讀取的Dataframe的資料。

輸出 PDF

fastparquet Python (它如何適用於開發人員): 圖6 - 使用IronPDF庫生成的輸出PDF

IronPDF 授權

IronPDF 頁面。

將授權碼放在腳本的開頭,在使用IronPDF package之前:

from ironpdf import * 
# Apply your license key
License.LicenseKey = "key"
PYTHON

結論

fastparquet 是一個強大且高效的庫,用於在 Python 中處理 parquet 文件。 與 Pandas 和 Dask 的集成使其成為在基於 Python 的大數據工作流程中處理大型數據集的理想選擇。 IronPDF 是一個強大的 Python 程式庫,能夠直接從 Python 應用程式創建、操作和呈現 PDF 文件。 它簡化了將 HTML 內容轉換為 PDF 文件、創建交互式表單以及執行各種 PDF 操作(如合併文件或添加水印)等任務。 IronPDF 無縫整合至現有的 Python 框架和環境中,為開發人員提供一個靈活的解決方案,以動態生成和自定義 PDF 文件。 結合fastparquetIronPDF數據,對於parquet文件格式的操作和PDF生成可以無縫進行。

IronPDF 提供詳細的文件和代碼範例,以幫助開發人員充分利用其功能。 如需更多資訊,請參考文件程式碼範例頁面。

查克尼思·賓
軟體工程師
Chaknith 致力於 IronXL 和 IronBarcode。他在 C# 和 .NET 方面擁有豐富的專業知識,協助改進軟體並支持客戶。他從用戶互動中獲得的洞察力有助於提高產品、文檔和整體體驗。
< 上一頁
Flask Python(開發人員運作方式)
下一個 >
Keras Python(如何為開發者工作)

準備開始了嗎? 版本: 2025.4 剛剛發布

查看許可證 >