PYTHON ヘルプ

fastparquet Python (開発者のための仕組み)

イントロダクション

fastparquet は、Parquetファイル形式を扱うために設計されたPythonライブラリであり、ビッグデータのワークフローで一般的に使用されます。 DaskやPandasのような他のPythonベースのデータ処理ツールともうまく統合できる。 その機能とコード例を見てみよう。 この記事の後半では、IronPDFIron SoftwareのPDF生成ライブラリについても学びます。

ファストパルケの概要

fastparquetは効率的で、幅広いParquetの機能をサポートしています。 主要な機能には以下が含まれます:

パーケットファイルの読み書き

Parquetファイルやその他のデータファイルからの読み取りと書き込みが簡単に行えます。

PandasおよびDaskとの統合

Pandas DataFramesとDaskでシームレスに並列処理。

コンプレッション・サポート

データファイルのgzip、snappy、brotli、lz4、zstandardのような様々な圧縮アルゴリズムをサポートします。

効率的なストレージ

パーケット・カラムナー・ファイル・フォーマットとファイルを指すメタデータ・ファイルを使用して、大規模なデータセットやデータ・ファイルの保存と検索の両方に最適化されています。

インストール

pipを使用してfastparquetをインストールできます。

pip install fastparquet
pip install fastparquet
SHELL

あるいはcondaを使う:

conda install -c conda-forge fastparquet
py
PYTHON

基本的な使用法

fastparquetを使い始めるための簡単な例です。

パーケットファイルの書き込み

Pandas DataFrameをParquetファイルに書き込むことができます:

import pandas as pd
import fastparquet
# Create a sample DataFrame
df = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
# Write the DataFrame to single output file using single file path
df.to_parquet('example.parquet', engine='fastparquet')
# Display message
print("DataFrame successfully written to 'example.parquet'.")
py
PYTHON

出力

fastparquet Python(開発者向けの仕組み):図1 - コンソール出力

パーケットファイルの読み込み

Parquet ファイルを Pandas DataFrame に読み込むことができます:

import pandas as pd
import fastparquet
# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')
# Display the DataFrame
print(df.head())
py
PYTHON

出力

fastparquet Python(開発者向けの仕組み): 図2 - コンソール出力

パーケットファイルのメタデータの表示

import fastparquet as fp
# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
py
PYTHON

出力

fastparquet Python(開発者向けの動作方法):図3 - コンソール出力

高度な機能

並列処理にDaskを使う

fastparquet pythonは、大規模データセットを並行して処理するためにDaskとよく統合されます。

import dask.dataframe as dd
# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')
# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()
# Display the result for simple data types
print(result)
py
PYTHON

圧縮のカスタマイズ

Parquetファイルを書き込む際に、異なる圧縮アルゴリズムを指定することができます:

import pandas as pd
import fastparquet
# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
})
# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
py
PYTHON

IronPDFの紹介

fastparquet Python(開発者向けの動作方法):図4 - IronPDF for Python:Python PDFライブラリ

IronPDFは、HTML、CSS、画像、JavaScriptから生成されたPDFドキュメントを生成、修正、およびデジタル署名するために作られた強力なPythonライブラリです。 最小限のメモリフットプリントを維持しながら、優れたパフォーマンスを発揮する。 以下はその主な特徴である:

1.HTMLからPDFへの変換

IronPDFでHTMLファイル、HTML文字列、URLをPDF文書に変換します。 たとえば、Chrome PDFレンダラーを使用して、ウェブページを簡単にPDFにレンダリングします。

2.クロスプラットフォーム対応

Windows、Mac、Linux、各種クラウドプラットフォームのPython 3+に対応。 IronPDFは.NET、Java、Python、Node.js環境でもアクセス可能です。

3.編集と署名

ドキュメントのプロパティを変更し、パスワード保護と権限でセキュリティを強化し、IronPDFを使用してPDFにデジタル署名を統合します。

4.ページテンプレートと設定

カスタマイズされたヘッダー、フッターページ番号、および調整可能な余白でPDFを調整します。 レスポンシブレイアウトに対応し、カスタム用紙サイズにも対応。

5.規格遵守

PDF/AやPDF/UAなどのPDF標準に準拠。 UTF-8文字エンコーディングを処理し、画像、CSSスタイルシート、フォントなどのアセットを効率的に管理します。

IronPDFとfastparquetを使ってPDFドキュメントを生成する

IronPDF for Pythonの前提条件

  1. IronPDF はその基盤技術として.NET 6.0に依存しています。 したがって、システムに.NET 6.0 ランタイムがインストールされていることを確認してください。

  2. Python 3.0+: Pythonバージョン3以降がインストールされていること。

  3. pip: IronPDFパッケージをインストールするためにPythonパッケージインストーラーpipをインストールする。

インストール

# install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
py
PYTHON

コード例

以下のコード例は、PythonでfastparquetとIronPDFを一緒に使うことを示しています:

import pandas as pd
import fastparquet as fp
from ironpdf import *     
# Apply your license key
License.LicenseKey = "your Key"
# Sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)
# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()
# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:"+"</p>"
content += "<p>"+f"{str(df)}"+"</p>"
content += "<p> DataFrame read from Parquet file:"+"</p>"
content += "<p>"+f"{str(df_read)}"+"</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("Demo-FastParquet.pdf")
py
PYTHON

コードの説明

このコード・スニペットは、いくつかのPythonライブラリを利用してデータを操作し、HTMLコンテンツからPDF文書を生成する方法を示しています。

  1. インポートとセットアップ: データ操作のためのfastparquetインポートおよびIronPDFインポート文、それぞれParquetファイルの読み書きおよびPDF生成のため。

  2. ライセンスキーの設定: IronPDFのライセンスキーを設定し、その機能を有効にします。

  3. サンプルデータフレームの作成: 個人(氏名、年齢、都市)に関する情報を含むサンプルデータフレーム(df)を定義します。

  4. DataFrameをParquetに書き込む: DataFrame `df` を`example.parquet`という名前のParquetファイルに書き込みます。

  5. Parquetファイルの読み取り: Parquetファイル(example.parquet)からデータを読み込み、DataFrame(df_read)に戻します。

  6. HTMLからPDFを生成: IronPDFを使用してChromePdfRendererインスタンスを初期化します。

  7. HTML文字列: 元のDataFrame(`df`)とParquetファイルから読み込んだDataFrame(`df_read`)を表示する見出し(`

    `)と段落(`

    `)を含むHTML文字列(`content`)を構築します。

  8. `pdf = renderer.RenderHtmlAsPdf(content)`: HTMLコンテンツ (`content`) をIronPDFを使用してPDFドキュメントとしてレンダリングします。

  9. `pdf.SaveAs("Demo-FastParquet.pdf")`: 生成されたPDFドキュメントを`Demo-FastParquet.pdf`として保存します。

    コードはFastParquetのサンプルコードを示し、データ処理機能とPDF生成をシームレスに統合し、パーケットファイルに格納されたデータを基にしたレポートやドキュメントの作成に役立ちます。

出力

fastparquet Python(開発者向けの動作方法):図5 - 元のDataframeからのデータとParquetファイルから読み込んだDataframeのコンソール出力。

出力PDF

fastparquet Python(開発者向けの作業方法):図6 - IronPDFライブラリを使用して生成された出力PDF

IronPDFライセンス

IronPDF ページ。

スクリプトの先頭にライセンスキーを配置してから、IronPDFパッケージを使用します。

from ironpdf import * 
# Apply your license key
License.LicenseKey = "key"
py
PYTHON

結論

fastparquet は、Pythonでparquetファイルを扱うための強力かつ効率的なライブラリです。 PandasやDaskとの統合により、Pythonベースのビッグデータワークフローで大規模なデータセットを扱うのに最適です。 IronPDF は、PythonアプリケーションからPDFドキュメントの作成、操作、レンダリングを直接行うための強力なPythonライブラリです。 HTMLコンテンツをPDF文書に変換したり、インタラクティブなフォームを作成したり、ファイルの結合や透かしの追加など、さまざまなPDF操作を実行したりするタスクを簡素化します。 IronPDF は、既存のPythonフレームワークおよび環境とシームレスに統合し、開発者に対してPDFドキュメントを動的に生成およびカスタマイズするための多用途なソリューションを提供します。 fastparquetIronPDFのデータを使用すると、パーケットファイル形式の操作やPDFの生成がシームレスに行えます。

IronPDFは、開発者がその機能を最大限に活用できるよう、包括的なドキュメントとコード例を提供します。 詳細については、ドキュメントおよびコード例のページを参照してください。

チャクニット・ビン
ソフトウェアエンジニア
ChaknithはIronXLとIronBarcodeで作業しています。彼はC#と.NETに深い専門知識を持ち、ソフトウェアの改善と顧客サポートを支援しています。ユーザーとの対話から得た彼の洞察は、より良い製品、文書、および全体的な体験に貢献しています。
< 以前
Flask Python (開発者のための仕組み)
次へ >
Keras Python (開発者のための仕組み)