PYTHON ヘルプ

fastparquet Python (開発者のための仕組み)

更新済み 8月 13, 2024
共有:

イントロダクション

**ファストパーケット は、ビッグデータのワークフローでよく使われるParquetファイルフォーマットを扱うために設計されたPythonライブラリです。 DaskやPandasのような他のPythonベースのデータ処理ツールともうまく統合できる。 その機能とコード例を見てみよう。 この記事の後半では、次のことも学ぶ。 IronPDFIronPDF, a PDF generation library from Iron Software IronSoftware.

ファストパルケの概要

**ファストパーケット は効率的で、幅広いパーケット機能をサポートしている。 主要な機能には以下が含まれます:

パーケットファイルの読み書き

Parquetファイルやその他のデータファイルからの読み取りと書き込みが簡単に行えます。

PandasおよびDaskとの統合

Pandas DataFramesとDaskでシームレスに並列処理。

コンプレッション・サポート

データファイルのgzip、snappy、brotli、lz4、zstandardのような様々な圧縮アルゴリズムをサポートします。

効率的なストレージ

パーケット・カラムナー・ファイル・フォーマットとファイルを指すメタデータ・ファイルを使用して、大規模なデータセットやデータ・ファイルの保存と検索の両方に最適化されています。

インストール

インストールすることができます ファストパルケット pipを使って:

pip install fastparquet

あるいはcondaを使う:

conda install -c conda-forge fastparquet
PYTHON

基本的な使用法

fastparquetを使い始めるための簡単な例です。

パーケットファイルの書き込み

Pandas DataFrameをParquetファイルに書き込むことができます:

import pandas as pd
import fastparquet
# Create a sample DataFrame
df = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
# Write the DataFrame to single output file using single file path
df.to_parquet('example.parquet', engine='fastparquet')
# Display message
print("DataFrame successfully written to 'example.parquet'.")
PYTHON

出力

ファストパーケット Python (開発者向けの仕組み):図1 - コンソール出力

パーケットファイルの読み込み

Parquet ファイルを Pandas DataFrame に読み込むことができます:

import pandas as pd
import fastparquet
# Read a Parquet file
df = pd.read_parquet('example.parquet', engine='fastparquet')
# Display the DataFrame
print(df.head())
PYTHON

出力

fastparquet Python(開発者のための仕組み):図2 - コンソール出力

パーケットファイルのメタデータの表示

import fastparquet as fp
# Reading metadata from Parquet file
meta = fp.ParquetFile('example.parquet').metadata
print("Parquet file metadata:")
print(meta)
PYTHON

出力

ファストパーケット Python (開発者向けの仕組み):図3 - コンソール出力

高度な機能

並列処理にDaskを使う

fastparquet Pythonは、以下のものとうまく統合されています。 ダスク 大規模なデータセットを並列処理する:

import dask.dataframe as dd
# Read a Parquet file into a Dask DataFrame
ddf = dd.read_parquet('example.parquet', engine='fastparquet')
# Perform operations on the Dask DataFrame
result = ddf.groupby('name').mean().compute()
# Display the result for simple data types
print(result)
PYTHON

圧縮のカスタマイズ

Parquetファイルを書き込む際に、異なる圧縮アルゴリズムを指定することができます:

import pandas as pd
import fastparquet
# Create a sample DataFrame
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35]
})
# Write the DataFrame to a Parquet file with gzip compression
df.to_parquet('example.parquet', engine='fastparquet', compression='gzip')
PYTHON

IronPDFの紹介

ファストパーケット Python (開発者向けの仕組み):図4 - IronPDF for Python:Python PDFライブラリ

IronPDF は、HTML、CSS、画像、JavaScriptから派生したPDF文書の生成、変更、電子署名のために作られた堅牢なPythonライブラリです。 最小限のメモリフットプリントを維持しながら、優れたパフォーマンスを発揮する。 以下はその主な特徴である:

1.HTMLからPDFへの変換

IronPDFでHTMLファイル、HTML文字列、URLをPDF文書に変換します。 例えば ウェブページをPDFに変換 ChromeのPDFレンダラーを使用しています。

2.クロスプラットフォーム対応

Windows、Mac、Linux、各種クラウドプラットフォームのPython 3+に対応。 IronPDFは.NET、Java、Python、Node.js環境でもアクセス可能です。

3.編集と署名

ドキュメント・プロパティの変更 パスワード保護と許可と統合する。 デジタル署名 IronPDFを使ってPDFを作成します。

4.ページテンプレートと設定

カスタマイズされたPDF ヘッダー、フッター, ページ番号マージンも調整可能。 レスポンシブレイアウトに対応し、カスタム用紙サイズにも対応。

5.規格遵守

PDF/AやPDF/UAなどのPDF標準に準拠。 UTF-8文字エンコーディングを処理し、画像、CSSスタイルシート、フォントなどのアセットを効率的に管理します。

IronPDFとfastparquetを使ってPDFドキュメントを生成する

IronPDF for Pythonの前提条件

  1. IronPDF は.NET 6.0を基盤技術としている。 したがって、以下のことを確認してください。 .NET 6.0ランタイム がインストールされています。

  2. Python 3.0+: Pythonバージョン3以降がインストールされていること。

  3. pip:Pythonパッケージインストーラをインストールする pip IronPDFパッケージをインストールする。

インストール

# install latest version of the libraries
pip install fastparquet
pip install pandas
pip install ironpdf
PYTHON

コード例

以下のコード例は、PythonでfastparquetとIronPDFを一緒に使うことを示しています:

import pandas as pd
import fastparquet as fp
from ironpdf import *     
# Apply your license key
License.LicenseKey = "your Key"
# Sample DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
# Writing DataFrame to a Parquet file
fp.write('example.parquet', df)
# Reading from Parquet file into DataFrame
df_read = fp.ParquetFile('example.parquet').to_pandas()
# Displaying the read DataFrame
print("Original DataFrame:")
print(df)
print("\nDataFrame read from Parquet file:")
print(df_read)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with FastParquet</h1>"
content += "<p> Original DataFrame:"+"</p>"
content += "<p>"+f"{str(df)}"+"</p>"
content += "<p> DataFrame read from Parquet file:"+"</p>"
content += "<p>"+f"{str(df_read)}"+"</p>"
pdf = renderer.RenderHtmlAsPdf(content)
# Export to a file or Stream
pdf.SaveAs("Demo-FastParquet.pdf")
PYTHON

コードの説明

このコード・スニペットは、いくつかのPythonライブラリを利用してデータを操作し、HTMLコンテンツからPDF文書を生成する方法を示しています。

  1. インポートとセットアップ: fastparquetインポート文とIronPDFインポート文がそれぞれデータ操作、Parquetファイルの読み込みと書き込み、PDF生成に使用されます。

    申し訳ありませんが、翻訳するコンテンツのテキストを提供してください。その後、英語から日本語に翻訳いたします。!-- -->

  2. ライセンスキーの設定:IronPDFのライセンスキーを設定し、IronPDFの機能を有効にします。

    申し訳ありませんが、翻訳するコンテンツのテキストを提供してください。その後、英語から日本語に翻訳いたします。!-- -->

  3. サンプルデータフレームの作成:サンプルDataFrameの定義 (\ddf) 個人情報 (氏名、年齢、都市名).

    申し訳ありませんが、翻訳するコンテンツのテキストを提供してください。その後、英語から日本語に翻訳いたします。!-- -->

  4. **DataFrameをParquetに書き込む:DataFrameをParquetファイルに書き込む。

    申し訳ありませんが、翻訳するコンテンツのテキストを提供してください。その後、英語から日本語に翻訳いたします。!-- -->

  5. パーケットファイルからの読み込み:Parquetファイルからデータを読み込む (\example.parquet`。) DataFrameに戻す (\を読む).

    申し訳ありませんが、翻訳するコンテンツのテキストを提供してください。その後、英語から日本語に翻訳いたします。!-- -->

  6. HTMLからPDFを生成する:IronPDFを使ってChromePdfRendererインスタンスを初期化します。

  7. HTML文字列:HTML文字列を構築する。 (\コンテンツ) 見出しを含む (`

    `) と段落 (`

    `) 元のDataFrameを表示する (\ddf) そして、Parquetファイルから読み込まれたDataFrame (\を読む).

  8. pdf = renderer.RenderHtmlAsPdf(内容)\:HTMLコンテンツをレンダリングする (\コンテンツ) をIronPDFを使ってPDF文書に変換します。

  9. \pdf.SaveAs("デモ・ファストパーケット.pdf")`:生成されたPDFドキュメントをDemo-FastParquet.pdf`として保存します。

    コードはFastParquetのサンプルコードを示し、データ処理機能とPDF生成をシームレスに統合し、パーケットファイルに格納されたデータを基にしたレポートやドキュメントの作成に役立ちます。

出力

fastparquet Python(開発者のための仕組み):図5 - 元のデータフレームとParquetファイルから読み込んだデータフレームのデータを表示したコンソール出力。

出力PDF

ファストパーケット Python (開発者向けの仕組み):図6 - IronPDFライブラリを使用して生成された出力PDF

IronPDFライセンス

IronPDF ページ

を使用する前に、ライセンス・キーをスクリプトの先頭に置きます。 IronPDFパッケージ:

from ironpdf import * 
# Apply your license key
License.LicenseKey = "key"
PYTHON

結論

**ファストパーケット はPythonで寄木細工ファイルを扱うための強力で効率的なライブラリです。 PandasやDaskとの統合により、Pythonベースのビッグデータワークフローで大規模なデータセットを扱うのに最適です。 IronPDF は、Pythonアプリケーションから直接PDF文書の作成、操作、レンダリングを容易にする堅牢なPythonライブラリです。 HTMLコンテンツをPDF文書に変換したり、インタラクティブなフォームを作成したり、ファイルの結合や透かしの追加など、さまざまなPDF操作を実行したりするタスクを簡素化します。 IronPDF は、既存のPythonフレームワークや環境とシームレスに統合され、PDF文書を動的に生成しカスタマイズするための汎用的なソリューションを開発者に提供します。 fastparquetIronPDF**データと共に、パーケットファイルフォーマットの操作とPDF生成をシームレスに行うことができます。

IronPDF 開発者がその機能を最大限に活用できるよう、包括的なドキュメントとコード例を提供している。 詳細については、をご参照ください。 ドキュメント 以下のコンテンツを日本語に翻訳してください: コード例 ページ。

< 以前
Flask Python (開発者のための仕組み)
次へ >
Keras Python (開発者のための仕組み)

準備はできましたか? バージョン: 2024.9 新発売

無料 pip インストール View Licenses >