PYTHON ヘルプ

fastparquet Python (開発者のための仕組み)

公開済み 2024年8月13日
共有:

イントロダクション

**ファストパーケットは、ビッグデータのワークフローでよく使われるParquetファイルフォーマットを扱うために設計されたPythonライブラリです。 DaskやPandasのような他のPythonベースのデータ処理ツールともうまく統合できる。 その機能とコード例を見てみよう。 この記事の後半では、次のことも学ぶ。IronPDFIronPDF, a PDF generation library from Iron SoftwareIron Software .

ファストパルケの概要

**ファストパーケットは効率的で、幅広いパーケット機能をサポートしている。 主要な機能には以下が含まれます:

パーケットファイルの読み書き

Parquetファイルやその他のデータファイルからの読み取りと書き込みが簡単に行えます。

PandasおよびDaskとの統合

Pandas DataFramesとDaskでシームレスに並列処理。

コンプレッション・サポート

データファイルのgzip、snappy、brotli、lz4、zstandardのような様々な圧縮アルゴリズムをサポートします。

効率的なストレージ

パーケット・カラムナー・ファイル・フォーマットとファイルを指すメタデータ・ファイルを使用して、大規模なデータセットやデータ・ファイルの保存と検索の両方に最適化されています。

インストール

インストールすることができますファストパルケットpipを使って:

pip install fastparquet

あるいはcondaを使う:

conda install -c conda-forge fastparquet
PYTHON

基本的な使用法

fastparquetを使い始めるための簡単な例です。

パーケットファイルの書き込み

Pandas DataFrameをParquetファイルに書き込むことができます:

import pandas as pd
import fastparquet
# Create a sample DataFrame
df = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
# Write the DataFrame to single output file using single file path
df.to_parquet('example.parquet', engine='fastparquet')
# Display message
print("DataFrame successfully written to 'example.parquet'.")
PYTHON

出力

ファストパーケット Python(開発者向けの仕組み):図1 - コンソール出力

パーケットファイルの読み込み

Parquet ファイルを Pandas DataFrame に読み込むことができます:

import pandas as pd
import fastparquet
# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')
# Display the DataFrame
print(df.head())
PYTHON

出力

fastparquet Python(開発者のための仕組み):図2 - コンソール出力

パーケットファイルのメタデータの表示

import fastparquet as fp
# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
PYTHON

出力

ファストパーケット Python(開発者向けの仕組み):図3 - コンソール出力

高度な機能

並列処理にDaskを使う

fastparquet Pythonは、以下のものとうまく統合されています。ダスク大規模なデータセットを並列処理する:

import dask.dataframe as dd
# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')
# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()
# Display the result for simple data types
print(result)
PYTHON

圧縮のカスタマイズ

Parquetファイルを書き込む際に、異なる圧縮アルゴリズムを指定することができます:

import pandas as pd
import fastparquet
# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
})
# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
PYTHON

IronPDFの紹介

ファストパーケット Python(開発者向けの仕組み):図4 - IronPDF for Python:Python PDFライブラリ

IronPDFは、HTML、CSS、画像、JavaScriptから派生したPDF文書の生成、変更、電子署名のために作られた堅牢なPythonライブラリです。 最小限のメモリフットプリントを維持しながら、優れたパフォーマンスを発揮する。 以下はその主な特徴である:

1.HTMLからPDFへの変換

IronPDFでHTMLファイル、HTML文字列、URLをPDF文書に変換します。 例えばウェブページをPDFに変換ChromeのPDFレンダラーを使用しています。

2.クロスプラットフォーム対応

Windows、Mac、Linux、各種クラウドプラットフォームのPython 3+に対応。 IronPDFは.NET、Java、Python、Node.js環境でもアクセス可能です。

3.編集と署名

ドキュメント・プロパティの変更パスワード保護と許可と統合する。デジタル署名IronPDFを使ってPDFを作成します。

4.ページテンプレートと設定

カスタマイズされたPDFヘッダー、フッター, ページ番号マージンも調整可能。 レスポンシブレイアウトに対応し、カスタム用紙サイズにも対応。

5.規格遵守

PDF/AやPDF/UAなどのPDF標準に準拠。 UTF-8文字エンコーディングを処理し、画像、CSSスタイルシート、フォントなどのアセットを効率的に管理します。

IronPDFとfastparquetを使ってPDFドキュメントを生成する

IronPDF for Pythonの前提条件

1.IronPDFは.NET 6.0を基盤技術としている。 したがって、以下のことを確認してください。.NET 6.0ランタイムがインストールされています。

  1. Python 3.0+: Pythonバージョン3以降がインストールされていること。

  2. pip:PythonパッケージインストーラをインストールするpipIronPDFパッケージをインストールする。

インストール

# install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
PYTHON

コード例

以下のコード例は、PythonでfastparquetとIronPDFを一緒に使うことを示しています:

import pandas as pd
import fastparquet as fp
from ironpdf import *     
# Apply your license key
License.LicenseKey = "your Key"
# Sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)
# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()
# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:"+"</p>"
content += "<p>"+f"{str(df)}"+"</p>"
content += "<p> DataFrame read from Parquet file:"+"</p>"
content += "<p>"+f"{str(df_read)}"+"</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("Demo-FastParquet.pdf")
PYTHON

コードの説明

このコード・スニペットは、いくつかのPythonライブラリを利用してデータを操作し、HTMLコンテンツからPDF文書を生成する方法を示しています。

  1. インポートとセットアップ: fastparquetインポート文とIronPDFインポート文がそれぞれデータ操作、Parquetファイルの読み込みと書き込み、PDF生成に使用されます。

    申し訳ありませんが、翻訳するコンテンツのテキストを提供してください。その後、英語から日本語に翻訳いたします。!-- -->

  2. ライセンスキーの設定:IronPDFのライセンスキーを設定し、IronPDFの機能を有効にします。

    申し訳ありませんが、翻訳するコンテンツのテキストを提供してください。その後、英語から日本語に翻訳いたします。!-- -->

  3. サンプルデータフレームの作成:サンプルDataFrameの定義(\ddf)個人情報(氏名、年齢、都市名).

    申し訳ありませんが、翻訳するコンテンツのテキストを提供してください。その後、英語から日本語に翻訳いたします。!-- -->

  4. **DataFrameをParquetに書き込む:DataFrameをParquetファイルに書き込む。

    申し訳ありませんが、翻訳するコンテンツのテキストを提供してください。その後、英語から日本語に翻訳いたします。!-- -->

  5. パーケットファイルからの読み込み:Parquetファイルからデータを読み込む(\example.parquet`。)DataFrameに戻す(\を読む).

    申し訳ありませんが、翻訳するコンテンツのテキストを提供してください。その後、英語から日本語に翻訳いたします。!-- -->

  6. HTMLからPDFを生成する:IronPDFを使ってChromePdfRendererインスタンスを初期化します。

  7. HTML文字列:HTML文字列を構築する。(\コンテンツ)見出しを含む(`

    `)と段落(`

    `)元のDataFrameを表示する(\ddf)そして、Parquetファイルから読み込まれたDataFrame(\を読む).

  8. pdf = renderer.RenderHtmlAsPdf(内容)\:HTMLコンテンツをレンダリングする(\コンテンツ)をIronPDFを使ってPDF文書に変換します。

  9. \pdf.SaveAs("デモ・ファストパーケット.pdf")`:生成されたPDFドキュメントをDemo-FastParquet.pdf`として保存します。

    コードはFastParquetのサンプルコードを示し、データ処理機能とPDF生成をシームレスに統合し、パーケットファイルに格納されたデータを基にしたレポートやドキュメントの作成に役立ちます。

出力

fastparquet Python(開発者のための仕組み):図5 - 元のデータフレームとParquetファイルから読み込んだデータフレームのデータを表示したコンソール出力。

出力PDF

ファストパーケット Python(開発者向けの仕組み):図6 - IronPDFライブラリを使用して生成された出力PDF

IronPDFライセンス

IronPDFページ

を使用する前に、ライセンス・キーをスクリプトの先頭に置きます。IronPDFパッケージ:

from ironpdf import * 
# Apply your license key
License.LicenseKey = "key"
PYTHON

結論

**ファストパーケットはPythonで寄木細工ファイルを扱うための強力で効率的なライブラリです。 PandasやDaskとの統合により、Pythonベースのビッグデータワークフローで大規模なデータセットを扱うのに最適です。 IronPDFは、Pythonアプリケーションから直接PDF文書の作成、操作、レンダリングを容易にする堅牢なPythonライブラリです。 HTMLコンテンツをPDF文書に変換したり、インタラクティブなフォームを作成したり、ファイルの結合や透かしの追加など、さまざまなPDF操作を実行したりするタスクを簡素化します。 IronPDFは、既存のPythonフレームワークや環境とシームレスに統合され、PDF文書を動的に生成しカスタマイズするための汎用的なソリューションを開発者に提供します。 fastparquetIronPDF**データと共に、パーケットファイルフォーマットの操作とPDF生成をシームレスに行うことができます。

IronPDF開発者がその機能を最大限に活用できるよう、包括的なドキュメントとコード例を提供している。 詳細については、をご参照ください。ドキュメント以下のコンテンツを日本語に翻訳してください:コード例ページ。

< 以前
Flask Python (開発者のための仕組み)
次へ >
Keras Python (開発者のための仕組み)

準備はできましたか? バージョン: 2024.11.1 新発売

無料 pip インストール ライセンスを表示 >