跳過到頁腳內容
PYTHON 幫助

fastparquet python(開發人員工作原理)

fastparquet是一個 Python 函式庫,旨在處理 Parquet 檔案格式,該格式常用於大數據工作流程。 它能很好地與其他基於 Python 的資料處理工具(如 Dask 和 Pandas)整合。 讓我們來探索它的功能並看一些程式碼範例。 本文稍後也將介紹IronPDF ,這是Iron Software出品的 PDF 產生庫。

快速拼花地板概述

fastparquet高效且支援多種 Parquet 功能。 它的一些主要特點包括:

閱讀並寫入鑲木地板文件

可以輕鬆讀取和寫入 Parquet 檔案和其他資料檔案。

與 Pandas 和 Dask 集成

無縫使用 Pandas DataFrames 和 Dask 進行平行處理。

壓縮支援

支援資料檔案中的各種壓縮演算法,如 gzip、snappy、brotli、lz4 和 zstandard。

高效率儲存

針對使用 parquet 列式檔案格式和指向檔案的元資料檔案儲存和檢索大型資料集或資料檔案進行了最佳化。

安裝

您可以使用 pip 安裝fastparquet

pip install fastparquet
pip install fastparquet
SHELL

或使用 conda:

conda install -c conda-forge fastparquet
conda install -c conda-forge fastparquet
SHELL

基本用法

這裡有一個簡單的例子,可以幫助你開始使用 fastparquet。

撰寫 Parquet 文件

您可以將 Pandas DataFrame 寫入 Parquet 檔案:

import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
})

# Write the DataFrame to a Parquet file
df.to_parquet('example.parquet', engine='fastparquet')

# Display confirmation message
print("DataFrame successfully written to 'example.parquet'.")
import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
})

# Write the DataFrame to a Parquet file
df.to_parquet('example.parquet', engine='fastparquet')

# Display confirmation message
print("DataFrame successfully written to 'example.parquet'.")
PYTHON

輸出

fastparquet Python(開發者使用方法):圖 1 - 控制台輸出

讀取鑲木地板文件

您可以將 Parquet 檔案讀入 Pandas DataFrame:

import pandas as pd

# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')

# Display the DataFrame
print(df.head())
import pandas as pd

# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')

# Display the DataFrame
print(df.head())
PYTHON

輸出

fastparquet Python(開發者使用方法):圖 2 - 控制台輸出

顯示 Parquet 檔案元數據

import fastparquet as fp

# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
import fastparquet as fp

# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
PYTHON

輸出

fastparquet Python(開發者使用方法):圖 3 - 控制台輸出

進階功能

使用 Dask 進行平行處理

fastparquet 與Dask整合良好,可以並行處理大型資料集:

import dask.dataframe as dd

# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')

# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()

# Display the result
print(result)
import dask.dataframe as dd

# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')

# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()

# Display the result
print(result)
PYTHON

自訂壓縮

寫入 Parquet 檔案時,您可以指定不同的壓縮演算法:

import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
})

# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
})

# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
PYTHON

IronPDF簡介

fastparquet Python(開發者使用方法):圖 4 - IronPDF for Python:Python PDF 庫

IronPDF是一個強大的 Python 程式庫,專為產生、修改和對源自 HTML、CSS、映像和JavaScript 的PDF 文件進行數位簽章而設計。 它在保持最小記憶體佔用的同時,實現了卓越的效能。 它的主要特點如下:

1. HTML 轉 PDF

使用IronPDF將 HTML 檔案、HTML 字串和 URL 轉換為 PDF 文件。 例如,使用 Chrome PDF 渲染器可以輕鬆地將網頁渲染成 PDF

2. 跨平台支持

相容於 Windows、Mac、Linux 和各種雲端平台上的 Python 3+。 IronPDF也適用於.NET、Java、Python 和Node.js環境。

3. 編輯和簽署

使用IronPDF修改文件屬性,透過密碼保護和權限增強安全性,並將數位簽章整合到您的 PDF 中。

4. 頁面範本和設置

使用自訂頁首、頁尾頁碼和可調整的邊距來自訂 PDF 檔案。 它支援響應式佈局,並可適應自訂紙張尺寸。

5. 標準符合性

符合 PDF/A 和 PDF/UA 等 PDF 標準。 它能夠處理 UTF-8 字元編碼,並有效管理圖像、CSS 樣式表和字體等資源。

使用IronPDF和 fastparquet 產生 PDF 文檔

IronPDF for Python 的先決條件

  1. IronPDF以.NET 6.0 為底層技術。 因此,請確保您的系統上已安裝.NET 6.0 執行階段環境
  2. Python 3.0+:請確保已安裝 Python 3 或更高版本。
  3. pip:安裝 Python 套件安裝程式pip以安裝IronPDF套件。

安裝

# Install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
# Install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
SHELL

程式碼範例

以下程式碼範例示範如何在 Python 中同時使用 fastparquet 和IronPDF :

import pandas as pd
import fastparquet as fp
from ironpdf import ChromePdfRenderer, License

# Apply your license key for IronPDF
License.LicenseKey = "your Key"

# Sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)

# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)

# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()

# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)

# Initialize a ChromePdfRenderer instance
renderer = ChromePdfRenderer()

# Create a PDF from a HTML string using IronPDF
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:</p>"
content += "<p>" + f"{str(df)}" + "</p>"
content += "<p> DataFrame read from Parquet file:</p>"
content += "<p>" + f"{str(df_read)}" + "</p>"

# Render the HTML content to a PDF
pdf = renderer.RenderHtmlAsPdf(content)

# Export the PDF to a file
pdf.SaveAs("Demo-FastParquet.pdf")
import pandas as pd
import fastparquet as fp
from ironpdf import ChromePdfRenderer, License

# Apply your license key for IronPDF
License.LicenseKey = "your Key"

# Sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)

# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)

# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()

# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)

# Initialize a ChromePdfRenderer instance
renderer = ChromePdfRenderer()

# Create a PDF from a HTML string using IronPDF
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:</p>"
content += "<p>" + f"{str(df)}" + "</p>"
content += "<p> DataFrame read from Parquet file:</p>"
content += "<p>" + f"{str(df_read)}" + "</p>"

# Render the HTML content to a PDF
pdf = renderer.RenderHtmlAsPdf(content)

# Export the PDF to a file
pdf.SaveAs("Demo-FastParquet.pdf")
PYTHON

程式碼解釋

這段程式碼片段示範如何利用多個 Python 程式庫來操作數據,並從 HTML 內容產生 PDF 文件。

1.匯入和設定:匯入資料操作、讀取和寫入 Parquet 檔案以及產生 PDF 所需的庫。

2.設定許可證密鑰:設定IronPDF的許可證密鑰,啟用其全部功能。

3.建立範例資料框:定義一個包含個人資訊(姓名、年齡、城市)的範例資料框(df)。

4.將 DataFrame 寫入 Parquet:將 DataFrame df 寫入名為 example.parquet 的 Parquet 檔案。

5.從 Parquet 檔案讀取資料:將 Parquet 檔案 (example.parquet) 中的資料讀取回 DataFrame (df_read)。

6.從 HTML 產生 PDF:

  • 使用IronPDF初始化 ChromePdfRenderer 實例。
  • 建立一個 HTML 字串 (content),其中包含標題 (<h1>) 和段落 (<p>),顯示原始 DataFrame (df) 和從 Parquet 檔案讀取的 DataFrame (@63--DE-CO-863--DE-8)。
  • 使用IronPDF將 HTML 內容渲染為 PDF 文件。
  • 將產生的 PDF 文件儲存為 Demo-FastParquet.pdf

程式碼示範了 FastParquet 的範例程式碼,將資料處理功能與 PDF 產生結合,使其可用於建立基於儲存在 parquet 檔案中的資料的報告或文件。

輸出

fastparquet Python(開發者使用方法):圖 5 - 控制台輸出顯示原始 Dataframe 和從 Parquet 檔案讀取的 Dataframe 中的資料。

輸出 PDF

fastparquet Python(開發者使用方法):圖 6 - 使用IronPDF庫產生的輸出 PDF

IronPDF許可

有關許可信息,請訪問IronPDF許可頁面

在使用IronPDF軟體包之前,請將許可證密鑰放在腳本的開頭:

from ironpdf import License

# Apply your license key
License.LicenseKey = "your Key"
from ironpdf import License

# Apply your license key
License.LicenseKey = "your Key"
PYTHON

結論

fastparquet是一個功能強大且高效的 Python 函式庫,用於處理 parquet 檔案。 它與 Pandas 和 Dask 的整合使其成為在基於 Python 的大數據工作流程中處理大型資料集的絕佳選擇。 IronPDF是一個強大的 Python 庫,它可以直接從 Python 應用程式建立、操作和渲染 PDF 文件。 它簡化了諸如將 HTML 內容轉換為 PDF 文件、建立互動式表單以及執行各種 PDF 操作(如合併文件或添加浮水印)等任務。 IronPDF可與現有的 Python 框架和環境無縫集成,為開發人員提供動態生成和自訂 PDF 文件的多功能解決方案。 IronPDFfastparquet結合使用,可實現 parquet 檔案格式中的無縫資料操作和 PDF 產生。

IronPDF提供全面的文件和程式碼範例,幫助開發人員充分利用其功能。 更多資訊請參閱文件程式碼範例頁面。

Curtis Chau
技術作家

Curtis Chau 擁有卡爾頓大學計算機科學學士學位,專注於前端開發,擅長於 Node.js、TypeScript、JavaScript 和 React。Curtis 熱衷於創建直觀且美觀的用戶界面,喜歡使用現代框架並打造結構良好、視覺吸引人的手冊。

除了開發之外,Curtis 對物聯網 (IoT) 有著濃厚的興趣,探索將硬體和軟體結合的創新方式。在閒暇時間,他喜愛遊戲並構建 Discord 機器人,結合科技與創意的樂趣。

鋼鐵支援團隊

我們每週 5 天,每天 24 小時在線上。
聊天
電子郵件
打電話給我