フッターコンテンツにスキップ
PYTHONヘルプ

fastparquet Python(開発者向けのしくみ)

fastparquetは、ビッグデータワークフローで一般的に使用されるParquetファイルフォーマットを処理するために設計されたPythonライブラリです。 DaskやPandasのような他のPythonベースのデータ処理ツールとうまく統合します。 その特徴を探り、コード例を見てみましょう。 Later in this article, we will also learn about IronPDF, a PDF generation library from Iron Software.

fastparquetの概要

fastparquetは効率的で、幅広いParquet機能をサポートしています。 主な特徴は以下のとおりです:

パーケットファイルの読み取りと書き込み

</p

Parquetファイルやその他のデータファイルからの読み取りと書き込みが簡単にできます。

PandasとDaskとの統合

</p

Pandas DataFramesやDaskとシームレスに連携し、並列処理を実現します。

圧縮サポート

データファイルのgzip、snappy、brotli、lz4、zstandardなどのさまざまな圧縮アルゴリズムをサポートします。

効率的なストレージ

</p

パーケットカラムナーファイル形式とファイルを指すメタデータファイルを使用して、大規模なデータセットまたはデータファイルの保存と検索の両方に最適化されています。

インストール

fastparquet は pip を使ってインストールできます:

pip install fastparquet
pip install fastparquet
SHELL

またはcondaを使用してください:

conda install -c conda-forge fastparquet
conda install -c conda-forge fastparquet
SHELL

基本的な使用方法

以下は、fastparquetを使い始めるための簡単な例です。

寄木細工ファイルを書く

</p

Pandas DataFrame を Parquet ファイルに書き込むことができます:

import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
})

# Write the DataFrame to a Parquet file
df.to_parquet('example.parquet', engine='fastparquet')

# Display confirmation message
print("DataFrame successfully written to 'example.parquet'.")
import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
})

# Write the DataFrame to a Parquet file
df.to_parquet('example.parquet', engine='fastparquet')

# Display confirmation message
print("DataFrame successfully written to 'example.parquet'.")
PYTHON

アウトプット

fastparquet Python (How It Works For Developers):図1 - コンソール出力</a

パーケットファイルを読む

</p

Parquet ファイルを Pandas DataFrame に読み込むことができます:

import pandas as pd

# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')

# Display the DataFrame
print(df.head())
import pandas as pd

# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')

# Display the DataFrame
print(df.head())
PYTHON

アウトプット

fastparquet Python (How It Works For Developers):図2 - コンソール出力</a

寄木細工ファイルのメタデータを表示する

</p
import fastparquet as fp

# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
import fastparquet as fp

# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
PYTHON

アウトプット

fastparquet Python (How It Works For Developers):図3 - コンソール出力</a

高度な機能

並列処理に Dask を使用する

fastparquet Python (How It Works For Developers):図4 - Python用IronPDF:PythonのPDFライブラリ

5.標準準拠

Awesome Iron PDF with FastParquet" content += "

Original DataFrame:

" content += "

" + f"{str(df)}" + "

" content += "

DataFrame read from Parquet file:

" content += "

" + f"{str(df_read)}" + "

" # Render the HTML content to a PDF pdf = renderer.RenderHtmlAsPdf(content) # Export the PDF to a file pdf.SaveAs("Demo-FastParquet.pdf") ``` ### コードの説明 このコードスニペットは、いくつかのPythonライブラリを利用してデータを操作し、HTMLコンテンツからPDFドキュメントを生成する方法を示しています。 1.**インポートとセットアップ**:データ操作、Parquetファイルの読み書き、PDF生成に必要なライブラリをインポートします。 2.**ライセンスキーの設定**: IronPdfのライセンスキーを設定し、全機能を有効にします。 3.**サンプルDataFrameの作成**:個人に関する情報(名前、年齢、都市)を含むサンプルDataFrame(`df`)を定義します。 4.**DataFrameをParquetに書く**:DataFrame`df`を`example.parquet`というParquetファイルに書き込みます。 5.**Parquetファイルからの読み込み**:Parquetファイル(`example.parquet`)からデータをDataFrame(`df_read`)に読み戻します。 6.**HTMLからPDFを生成する**: - IronPDFを使用してChromePdfRendererインスタンスを初期化します。 - 元のDataFrame(`df`)とParquetファイルから読み込んだDataFrame(`df_read`)を表示する見出し(`

`)と段落(`

`)を含むHTML文字列(`content`)を作成します。 - IronPDFを使用してHTMLコンテンツをPDFドキュメントとしてレンダリングします。 - 生成されたPDF文書を`Demo-FastParquet.pdf`として保存してください。 このコードは、FastParquetのサンプルコードを示しており、データ処理機能とPDF生成機能を統合しているため、パーケットファイルに格納されたデータに基づいてレポートやドキュメントを作成するのに便利です。 #### アウトプット [fastparquet Python (How It Works For Developers):図5 - 元のデータフレームとParquetファイルから読み込んだデータフレームのデータを表示するコンソール出力](/static-assets/pdf/blog/fastparquet-python/fastparquet-python-5.webp)。 #### アウトプット PDF [fastparquet Python (How It Works For Developers):図6 - IronPDFライブラリを使って生成された出力PDF](/static-assets/pdf/blog/fastparquet-python/fastparquet-python-6.webp)。

IronPdfライセンス

Curtis Chau
テクニカルライター

Curtis Chauは、カールトン大学でコンピュータサイエンスの学士号を取得し、Node.js、TypeScript、JavaScript、およびReactに精通したフロントエンド開発を専門としています。直感的で美しいユーザーインターフェースを作成することに情熱を持ち、Curtisは現代のフレームワークを用いた開発や、構造の良い視覚的に魅力的なマニュアルの作成を楽しんでいます。

開発以外にも、CurtisはIoT(Internet of Things)への強い関心を持ち、ハードウェアとソフトウェアの統合方法を模索しています。余暇には、ゲームをしたりDiscordボットを作成したりして、技術に対する愛情と創造性を組み合わせています。