PYTHON 幫助

fastparquet Python(它是如何為開發者工作的)

發佈 2024年8月13日
分享:

簡介

fastparquet 是一個專為處理Parquet文件格式設計的Python庫,該格式常用於大數據工作流程中。它能夠與其它基於Python的數據處理工具如Dask和Pandas良好集成。讓我們來探討它的功能並查看一些代碼示例。在本文的後面,我們還將了解 IronPDF,來自 的 PDF 生成庫 IronSoftware.

fastparquet 概覽

fastparquet 高效並支持各種 Parquet 功能。其主要功能包括:

讀取和寫入 Parquet 文件

輕鬆地讀取和寫入 Parquet 文件以及其他數據文件。

與 Pandas 和 Dask 的整合

與 Pandas DataFrame 和 Dask 無縫合作以進行並行處理。

壓縮支援

支援多種壓縮算法如gzip、snappy、brotli、lz4和zstandard在數據文件中。

高效存儲

優化用於使用Parquet列式文件格式和指向文件的元數據文件來存儲和檢索大型數據集或數據文件。

安裝

您可以安裝 fastparquet 使用 pip:

pip install fastparquet

或者使用 conda:

conda install -c conda-forge fastparquet
PYTHON

基本用法

這是一個簡單的例子,可以幫助您快速開始使用fastparquet。

寫入 Parquet 文件

您可以將 Pandas DataFrame 寫入到 Parquet 文件中:

import pandas as pd
import fastparquet
# Create a sample DataFrame
df = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
# Write the DataFrame to single output file using single file path
df.to_parquet('example.parquet', engine='fastparquet')
# Display message
print("DataFrame successfully written to 'example.parquet'.")
PYTHON

輸出

fastparquet Python(開發者如何使用):圖 1 - 控制台輸出

讀取 Parquet 檔案

您可以將 Parquet 檔案讀取到 Pandas DataFrame:

import pandas as pd
import fastparquet
# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')
# Display the DataFrame
print(df.head())
PYTHON

輸出

fastparquet Python(開發者如何使用):圖2 - 控制台輸出

顯示 Parquet 文件元數據

import fastparquet as fp
# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
PYTHON

輸出

fastparquet Python(開發人員如何使用):圖3 - 主控台輸出

進階功能

使用 Dask 進行並行處理

fastparquet python 與 Dask 用於並行處理大型數據集:

import dask.dataframe as dd
# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')
# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()
# Display the result for simple data types
print(result)
PYTHON

自訂壓縮

您可以在寫入 Parquet 文件時指定不同的壓縮算法:

import pandas as pd
import fastparquet
# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
})
# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
PYTHON

介紹 IronPDF

fastparquet Python(開發者如何運作):圖4 - IronPDF for Python:Python PDF庫

IronPDF 是一個強大的 Python 庫,用於從 HTML、CSS、圖像和 JavaScript 生成、修改和數位簽名 PDF 文件。它在性能方面表現出色,同時保持最小的記憶體佔用。以下是其主要功能:

1. HTML 轉換為 PDF

使用 IronPDF 將 HTML 檔案、HTML 字串和 URL 轉換為 PDF 文件。例如,輕鬆地 將網頁渲染為PDF 使用 Chrome PDF 渲染器。

2. 跨平台支持

兼容 Windows、Mac、Linux 和各種雲平台上的 Python 3+。IronPDF 也適用於 .NET、Java、Python 和 Node.js 環境。

3. 編輯和簽名

修改文件屬性,通過強化安全性 密碼保護和權限,並整合 數位簽章 使用 IronPDF 插入至您的 PDF 中。

4. 頁面模板和設置

使用自定義的 PDF 排版 頁眉,頁腳, 頁碼,可調整邊距。它支持響應式布局並適應自定義紙張尺寸。

5. 標準合規

符合PDF標準如PDF/A和PDF/UA。它處理UTF-8字符編碼並有效管理圖像、CSS樣式表和字體等資產。

使用 IronPDF 和 fastparquet 生成 PDF 文件

IronPDF for Python 先決條件

  1. IronPDF 依賴 .NET 6.0 作為其底層技術。因此,請確保 .NET 6.0 執行階段 已安裝在您的系統上。

  2. Python 3.0+: 確保安裝Python 3或更高版本。

  3. pip: 安裝Python的套件安裝工具 pip 安裝IronPDF套件。

安裝

# install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
PYTHON

代碼範例

以下代碼範例展示了在 Python 中結合使用 fastparquet 和 IronPDF:

import pandas as pd
import fastparquet as fp
from ironpdf import *     
# Apply your license key
License.LicenseKey = "your Key"
# Sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)
# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()
# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:"+"</p>"
content += "<p>"+f"{str(df)}"+"</p>"
content += "<p> DataFrame read from Parquet file:"+"</p>"
content += "<p>"+f"{str(df_read)}"+"</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("Demo-FastParquet.pdf")
PYTHON

程式碼說明

這段程式碼片段展示了如何利用幾個 Python 庫來操作數據並從 HTML 內容生成 PDF 文件。

  1. 導入和設置:fastparquet 導入和 IronPDF 導入語句分別用於數據操作、讀取和寫入 Parquet 文件以及 PDF 生成。!1. 設定授權金鑰:設定IronPDF的授權金鑰,以啟用其功能。!1. 創建示例DataFrame:定義一個示例DataFrame (`df`) 包含個人信息 (名稱, 年齡, 城市).<|vq_9533|>!1. 將 DataFrame 寫入 Parquet: 將 DataFrame `df` 寫入名為 `example.parquet` 的 Parquet 檔案中。!1. 從Parquet文件中讀取:從Parquet文件中讀取資料 (example.parquet) 返回到資料框 (`df_read`).<|vq_9533|>!1. 從HTML生成PDF:使用IronPDF初始化ChromePdfRenderer實例。

  2. HTML字符串:構建一個HTML字符串 (內容) 包括標題 (`

    `) 和段落 (\

    ) 顯示原始的 DataFrame (`df`) 以及從 Parquet 文件讀取的 DataFrame (`df_read`).

  3. `pdf = renderer.RenderHtmlAsPdf(內容)`:渲染HTML內容 (內容) 以PDF文件的形式使用IronPDF。

  4. `pdf.SaveAs("Demo-FastParquet.pdf")`: 將生成的 PDF 文件儲存為 `Demo-FastParquet.pdf`。

代碼展示了一個 FastParquet 的範例代碼,然後它無縫整合了數據處理功能與 PDF 生成,這對於基於 parquet 文件中儲存的數據來创建報告或文件非常有用。

輸出

fastparquet Python(開發人員運作方式):圖 5 - 主控台輸出顯示原始 Dataframe 和從 Parquet 文件讀取的 Dataframe 數據。

輸出 PDF

fastparquet Python(對開發人員的工作原理):圖6 - 使用 IronPDF 庫生成的輸出 PDF

IronPDF License

IronPDF 頁面。

在使用之前,請將許可證密鑰放在腳本的開頭。 IronPDF 套件:

from ironpdf import * 
# Apply your license key
License.LicenseKey = "key"
PYTHON

結論

fastparquet 是一個強大且高效的庫,用於在 Python 中處理 Parquet 文件。其與 Pandas 和 Dask 的整合,使其成為在基於 Python 的大數據工作流程中處理大型數據集的理想選擇。 IronPDF 是一個強大的 Python 庫,能夠直接從 Python 應用程式中創建、操作和呈現 PDF 文件。它簡化了許多任務,如將 HTML 內容轉換為 PDF 文件、創建互動表單以及執行各種 PDF 操作,如合併文件或添加水印。 IronPDF 與現有的 Python 框架和環境無縫整合,為開發人員提供了一個多功能的解決方案,可以動態生成和自定義 PDF 文件。結合 fastparquetIronPDF 數據,對 parquet 文件格式的操作和 PDF 生成可以無縫完成。

IronPDF 提供了全面的文件和代碼範例,幫助開發者充分利用其特性。如需更多資訊,請參閱 文檔程式碼範例 頁面。

< 上一頁
Flask Python(開發人員運作方式)
下一個 >
Keras Python(如何為開發者工作)

準備開始了嗎? 版本: 2024.9 剛剛發布

免費 pip 安裝 查看許可證 >