跳至頁尾內容
PYTHON 幫助

fastparquet Python(開發者使用指南)

fastparquet是一個 Python 函式庫,旨在處理 Parquet 檔案格式,該格式常用於大數據工作流程。 它能很好地與其他基於 Python 的資料處理工具(如 Dask 和 Pandas)整合。 讓我們來探索它的功能並看一些程式碼範例。 本文稍後也將介紹IronPDF ,這是Iron Software出品的 PDF 產生庫。

快速拼花地板概述

fastparquet高效且支援多種 Parquet 功能。 它的一些主要特點包括:

閱讀並寫入鑲木地板文件

可以輕鬆讀取和寫入 Parquet 檔案和其他資料檔案。

與 Pandas 和 Dask 集成

無縫使用 Pandas DataFrames 和 Dask 進行平行處理。

壓縮支援

支援資料檔案中的各種壓縮演算法,如 gzip、snappy、brotli、lz4 和 zstandard。

高效率儲存

針對使用 parquet 列式檔案格式和指向檔案的元資料檔案儲存和檢索大型資料集或資料檔案進行了最佳化。

安裝

您可以使用 pip 安裝fastparquet

pip install fastparquet
pip install fastparquet
SHELL

或使用 conda:

conda install -c conda-forge fastparquet
conda install -c conda-forge fastparquet
SHELL

基本用法

這裡有一個簡單的例子,可以幫助你開始使用 fastparquet。

撰寫 Parquet 文件

您可以將 Pandas DataFrame 寫入 Parquet 檔案:

import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
})

# Write the DataFrame to a Parquet file
df.to_parquet('example.parquet', engine='fastparquet')

# Display confirmation message
print("DataFrame successfully written to 'example.parquet'.")
import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
})

# Write the DataFrame to a Parquet file
df.to_parquet('example.parquet', engine='fastparquet')

# Display confirmation message
print("DataFrame successfully written to 'example.parquet'.")
PYTHON

輸出

fastparquet Python(開發者使用指南):圖 1 - 控制台輸出

讀取鑲木地板文件

您可以將 Parquet 檔案讀入 Pandas DataFrame:

import pandas as pd

# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')

# Display the DataFrame
print(df.head())
import pandas as pd

# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')

# Display the DataFrame
print(df.head())
PYTHON

輸出

fastparquet Python(開發者使用指南):圖 2 - 控制台輸出

顯示 Parquet 檔案元數據

import fastparquet as fp

# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
import fastparquet as fp

# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
PYTHON

輸出

fastparquet Python(開發者使用指南):圖 3 - 控制台輸出

進階功能

使用 Dask 進行平行處理

fastparquet 與Dask整合良好,可以並行處理大型資料集:

import dask.dataframe as dd

# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')

# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()

# Display the result
print(result)
import dask.dataframe as dd

# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')

# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()

# Display the result
print(result)
PYTHON

自訂壓縮

寫入 Parquet 檔案時,您可以指定不同的壓縮演算法:

import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
})

# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
})

# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
PYTHON

IronPDF簡介

fastparquet Python(開發者使用方法):圖 4 - IronPDF for Python:Python PDF 函式庫

IronPDF是一個強大的 Python 庫,專為生成、修改和對源自 HTML、CSS、圖像和 JavaScript 的 PDF 文件進行數位簽名而設計。 它在保持最小記憶體佔用的同時,實現了卓越的效能。 它的主要特點如下:

1. HTML 轉 PDF

使用 IronPDF 將 HTML 檔案、HTML 字串和 URL 轉換為 PDF 文件。 例如,使用 Chrome PDF 渲染器可以輕鬆地將網頁渲染成 PDF

2. 跨平台支持

相容於 Windows、Mac、Linux 和各種雲端平台上的 Python 3+。 IronPDF 也適用於 .NET、Java、Python 和 Node.js 環境。

3. 編輯和簽署

使用 IronPDF 修改文件屬性,透過密碼保護和權限增強安全性,並將數位簽章整合到您的 PDF 中。

4. 頁面範本和設置

使用自訂頁首、頁尾頁碼和可調整的邊距來自訂 PDF 檔案。 它支援響應式佈局,並可適應自訂紙張尺寸。

5. 標準符合性

符合 PDF/A 和 PDF/UA 等 PDF 標準。 它能夠處理 UTF-8 字元編碼,並有效管理圖像、CSS 樣式表和字體等資源。

使用 IronPDF 和 fastparquet 產生 PDF 文檔

IronPDF for Python 的先決條件

  1. IronPDF以 .NET 6.0 為底層技術。 因此,請確保您的系統上已安裝.NET 6.0 執行階段環境
  2. Python 3.0+:請確保已安裝 Python 3 或更高版本。
  3. pip:安裝 Python 套件安裝程式pip以安裝 IronPDF 套件。

安裝

# Install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
# Install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
SHELL

程式碼範例

以下程式碼範例示範如何在 Python 中同時使用 fastparquet 和 IronPDF:

import pandas as pd
import fastparquet as fp
from ironpdf import ChromePdfRenderer, License

# Apply your license key for IronPDF
License.LicenseKey = "your Key"

# Sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)

# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)

# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()

# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)

# Initialize a ChromePdfRenderer instance
renderer = ChromePdfRenderer()

# Create a PDF from a HTML string using IronPDF
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:</p>"
content += "<p>" + f"{str(df)}" + "</p>"
content += "<p> DataFrame read from Parquet file:</p>"
content += "<p>" + f"{str(df_read)}" + "</p>"

# Render the HTML content to a PDF
pdf = renderer.RenderHtmlAsPdf(content)

# Export the PDF to a file
pdf.SaveAs("Demo-FastParquet.pdf")
import pandas as pd
import fastparquet as fp
from ironpdf import ChromePdfRenderer, License

# Apply your license key for IronPDF
License.LicenseKey = "your Key"

# Sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)

# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)

# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()

# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)

# Initialize a ChromePdfRenderer instance
renderer = ChromePdfRenderer()

# Create a PDF from a HTML string using IronPDF
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:</p>"
content += "<p>" + f"{str(df)}" + "</p>"
content += "<p> DataFrame read from Parquet file:</p>"
content += "<p>" + f"{str(df_read)}" + "</p>"

# Render the HTML content to a PDF
pdf = renderer.RenderHtmlAsPdf(content)

# Export the PDF to a file
pdf.SaveAs("Demo-FastParquet.pdf")
PYTHON

程式碼解釋

這段程式碼片段示範如何利用多個 Python 程式庫來操作數據,並從 HTML 內容產生 PDF 文件。

1.匯入和設定:匯入資料操作、讀取和寫入 Parquet 檔案以及產生 PDF 所需的庫。

2.設定許可證密鑰:設定 IronPDF 的許可證密鑰,啟用其全部功能。

3.建立範例資料框:定義一個包含個人資訊(姓名、年齡、城市)的範例資料框( df )。

4.將 DataFrame 寫入 Parquet:將 DataFrame df寫入名為example.parquet的 Parquet 檔案。

5.從 Parquet 檔案讀取資料:將 Parquet 檔案( example.parquet )中的資料讀回 DataFrame( df_read )。

6.從 HTML 產生 PDF:

  • 使用 IronPDF 初始化 ChromePdfRenderer 實例。
  • 建立一個包含標題的 HTML 字串( content )(<h1> )和段落(<p> ) 顯示原始 DataFrame ( df ) 和從 Parquet 檔案讀取的 DataFrame ( df_read )。
  • 使用 IronPDF 將 HTML 內容渲染為 PDF 文件。
  • 將產生的 PDF 文件另存為Demo-FastParquet.pdf

程式碼示範了 FastParquet 的範例程式碼,將資料處理功能與 PDF 產生結合,使其可用於建立基於儲存在 parquet 檔案中的資料的報告或文件。

輸出

fastparquet Python(開發者使用方法):圖 5 - 控制台輸出顯示原始 Dataframe 和從 Parquet 檔案讀取的 Dataframe 中的資料。

輸出 PDF

fastparquet Python(開發者使用指南):圖 6 - 使用 IronPDF 庫產生的輸出 PDF

IronPDF 許可

有關許可信息,請訪問IronPDF許可頁面

在使用IronPDF 軟體包之前,請將許可證密鑰放在腳本的開頭:

from ironpdf import License

# Apply your license key
License.LicenseKey = "your Key"
from ironpdf import License

# Apply your license key
License.LicenseKey = "your Key"
PYTHON

結論

fastparquet是一個功能強大且高效的 Python 函式庫,用於處理 parquet 檔案。 它與 Pandas 和 Dask 的整合使其成為在基於 Python 的大數據工作流程中處理大型資料集的絕佳選擇。 IronPDF是一個強大的 Python 庫,它可以直接從 Python 應用程式建立、操作和渲染 PDF 文件。 它簡化了諸如將 HTML 內容轉換為 PDF 文件、建立互動式表單以及執行各種 PDF 操作(如合併文件或添加浮水印)等任務。 IronPDF可與現有的 Python 框架和環境無縫集成,為開發人員提供動態生成和自訂 PDF 文件的多功能解決方案。 IronPDFfastparquet結合使用,可實現 parquet 檔案格式中的無縫資料操作和 PDF 產生。

IronPDF 提供全面的文件和程式碼範例,幫助開發人員充分利用其功能。 更多資訊請參閱文件程式碼範例頁面。

柯蒂斯·週
技術撰稿人

Curtis Chau擁有卡爾頓大學電腦科學學士學位,專長於前端開發,精通Node.js、TypeScript、JavaScript和React。他熱衷於打造直覺美觀的使用者介面,喜歡使用現代框架,並擅長撰寫結構清晰、視覺效果出色的使用者手冊。

除了開發工作之外,柯蒂斯對物聯網 (IoT) 也抱有濃厚的興趣,致力於探索硬體和軟體整合的創新方法。閒暇時,他喜歡玩遊戲和製作 Discord 機器人,將他對科技的熱愛與創造力結合。