PYTHON 幫助

fastparquet Python(它是如何為開發者工作的)

發佈 2024年8月13日
分享:

介紹

fastparquet是一個專為處理 Parquet 文件格式設計的 Python 函式庫,該格式通常用於大數據工作流程中。 它能很好地與其他基於 Python 的數據處理工具,如 Dask 和 Pandas 集成。 讓我們探索其功能並查看一些程式碼範例。 稍後在本文中,我們還將了解IronPDF,來自 的 PDF 生成庫Iron Software.

fastparquet 概覽

fastparquet功能高效,支持多種Parquet功能。 其一些主要功能包括:

讀取和寫入 Parquet 文件

輕鬆讀取和寫入Parquet文件及其他數據文件。

與 Pandas 和 Dask 的整合

無縫地使用 Pandas DataFrame 和 Dask 進行平行處理。

壓縮支持

支持資料文件中的各種壓縮算法,如 gzip、snappy、brotli、lz4 和 zstandard。

高效儲存

優化以使用 Parquet 列式檔案格式和指向檔案的元資料檔案來儲存和檢索大型數據集或數據文件。

安裝

您可以安裝fastparquet使用 pip:

pip install fastparquet

或者使用 conda:

conda install -c conda-forge fastparquet
PYTHON

基本用法

這裡有個簡單的範例來幫助你開始使用fastparquet。

撰寫 Parquet 檔案

您可以將 Pandas DataFrame 寫入 Parquet 文件:

import pandas as pd
import fastparquet
# Create a sample DataFrame
df = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
# Write the DataFrame to single output file using single file path
df.to_parquet('example.parquet', engine='fastparquet')
# Display message
print("DataFrame successfully written to 'example.parquet'.")
PYTHON

輸出

fastparquet Python(開發者如何使用):圖 1 - 控制台輸出

讀取 Parquet 文件

您可以將 Parquet 文件讀入 Pandas DataFrame:

import pandas as pd
import fastparquet
# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')
# Display the DataFrame
print(df.head())
PYTHON

輸出

fastparquet Python(開發者如何使用):圖2 - 控制台輸出

顯示 Parquet 文件元數據

import fastparquet as fp
# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
PYTHON

輸出

fastparquet Python(開發人員如何使用):圖3 - 主控台輸出

進階功能

使用 Dask 進行平行處理

fastparquet python 與以下內容整合良好Dask用於並行處理大型數據集:

import dask.dataframe as dd
# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')
# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()
# Display the result for simple data types
print(result)
PYTHON

自訂壓縮

您可以在寫入 Parquet 文件時指定不同的壓縮算法:

import pandas as pd
import fastparquet
# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
})
# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
PYTHON

介紹 IronPDF

fastparquet Python(開發者如何運作):圖4 - IronPDF for Python:Python PDF庫

IronPDF是一個強大的Python庫,專為生成、修改和數位簽署來自HTML、CSS、圖像和JavaScript的PDF文件而打造。 它在性能上表現出色,同時保持較小的記憶體佔用。 以下是其主要功能:

HTML 轉換為 PDF

使用 IronPDF 將 HTML 文件、HTML 字串和網址轉換為 PDF 文件。 例如,輕鬆地將網頁渲染為PDF使用 Chrome PDF 渲染器。

2. 跨平台支持

兼容 Windows、Mac、Linux 和各種雲端平台的 Python 3+。 IronPDF 也可用於 .NET、Java、Python 和 Node.js 環境。

3. 編輯和簽名

修改文件屬性,提高安全性,使用密碼保護和權限,並整合數位簽章使用 IronPDF 插入至您的 PDF 中。

4. 頁面模板與設置

根據需求定製 PDF頁眉,頁腳, 頁碼,和可調整邊距。 它支持響應式佈局並適應自定義紙張尺寸。

5. 標準合規性

符合 PDF 標準,如 PDF/A 和 PDF/UA。 它能處理 UTF-8 字元編碼,並有效地管理圖像、CSS 樣式表和字體等資產。

使用 IronPDF 和 fastparquet 生成 PDF 文件

IronPDF for Python 先決條件

  1. IronPDF基於.NET 6.0作為其底層技術。 因此,請確保.NET 6.0 執行階段已安裝在您的系統上。

  2. Python 3.0+:確保已安裝 Python 版本 3 或更高版本。

  3. pip:安裝 Python 軟體包管理工具pip安裝IronPDF套件。

安裝

# install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
PYTHON

程式碼範例

以下程式碼範例展示了在 Python 中同時使用 fastparquet 和 IronPDF:

import pandas as pd
import fastparquet as fp
from ironpdf import *     
# Apply your license key
License.LicenseKey = "your Key"
# Sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)
# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()
# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:"+"</p>"
content += "<p>"+f"{str(df)}"+"</p>"
content += "<p> DataFrame read from Parquet file:"+"</p>"
content += "<p>"+f"{str(df_read)}"+"</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("Demo-FastParquet.pdf")
PYTHON

程式碼說明

此代碼片段演示如何利用多個 Python 庫來操作數據並從 HTML 內容生成 PDF 文檔。

  1. 導入和設置fastparquet導入和IronPDF導入語句用於資料操作,分別用於讀取和寫入Parquet文件以及生成PDF。

  2. 設定許可證密鑰:設定IronPDF的許可證密鑰,啟用其功能。

  3. 建立範例DataFrame:定義一個範例DataFrame(`df`)包含個人信息(名稱, 年齡, 城市).

  4. 將 DataFrame 寫入 Parquet:將 DataFrame `df` 寫入名為 `example.parquet` 的 Parquet 文件。

  5. 從 Parquet 檔案讀取:從 Parquet 檔案中讀取數據(example.parquet)返回到資料框(`df_read`).

  6. 從 HTML 生成 PDF:使用 IronPDF 初始化 ChromePdfRenderer 實例。

  7. HTML 字串:構建一個 HTML 字串(內容)包括標題(`

    `)和段落(\

    )顯示原始的 DataFrame(`df`)以及從 Parquet 文件讀取的 DataFrame(`df_read`).

  8. `pdf = renderer.RenderHtmlAsPdf(內容)`:渲染HTML內容(內容)使用 IronPDF 作為 PDF 文件。

  9. `pdf.SaveAs("Demo-FastParquet.pdf")`: 將生成的 PDF 文件儲存為 `Demo-FastParquet.pdf`。

    程式碼展示了FastParquet的範例代碼,然後將數據處理功能與PDF生成無縫整合,使其在基於parquet文件中存儲的數據創建報告或文檔時非常有用。

輸出

fastparquet Python(開發人員運作方式):圖 5 - 主控台輸出顯示原始 Dataframe 和從 Parquet 文件讀取的 Dataframe 數據。

輸出 PDF

fastparquet Python(對開發人員的工作原理):圖6 - 使用 IronPDF 庫生成的輸出 PDF

IronPDF 授權

IronPDF頁面。

在使用前,將授權金鑰放置於腳本的開始處。IronPDF 套件:

from ironpdf import * 
# Apply your license key
License.LicenseKey = "key"
PYTHON

結論

fastparquet是一個強大且高效的庫,用於在 Python 中處理 parquet 檔案。 與 Pandas 和 Dask 的集成使其成為在基於 Python 的大數據工作流程中處理大型數據集的理想選擇。 IronPDF是一個強大的 Python 函式庫,可直接從 Python 應用程式中創建、操作和渲染 PDF 文件。 它簡化了將 HTML 內容轉換為 PDF 文件、創建交互式表單以及執行各種 PDF 操作(如合併文件或添加水印)等任務。 IronPDF與現有的 Python 框架和環境無縫整合,為開發人員提供生成和動態自定義 PDF 文件的多功能解決方案。 與 fastparquetIronPDF 一起,對 Parquet 文件格式的數據操作和 PDF 生成可以無縫進行。

IronPDF提供全面的文檔和程式碼範例,幫助開發人員充分利用其功能。 欲了解更多信息,請參閱文檔程式碼範例頁面。

< 上一頁
Flask Python(開發人員運作方式)
下一個 >
Keras Python(如何為開發者工作)

準備開始了嗎? 版本: 2024.11.1 剛剛發布

免費 pip 安裝 查看許可證 >