PYTHON ヘルプ

pyarrow（開発者のための仕組み）

ジョルディ・バルディア

2024年8月13日

共有:

イントロダクション

**パイアローは、Apache ArrowフレームワークへのPythonインターフェースを提供する強力なライブラリです。 Apache Arrowは、インメモリデータ用のクロスランゲージ開発プラットフォームである。これは、最新のハードウェア上で効率的な分析操作が行えるように編成された、フラットデータと階層データのための、標準化された言語に依存しないカラム型メモリフォーマットを規定している。**パイアローは基本的にApache Arrow Python BindingsをPythonパッケージとして実現したものです。 **パイアローは、異なるデータ処理システムやプログラミング言語間での効率的なデータ交換と相互運用性を可能にする。この記事の後半では、次のことも学ぶ。IronPDFによって開発されたPDF生成ライブラリである。Iron Software .

PyArrowの主な機能

カラムナーメモリーフォーマット：

PyArrowは、インメモリ分析操作に非常に効率的なカラム型メモリフォーマットを使用します。このフォーマットは、CPUキャッシュの使用率を高め、ベクトル化されたオペレーションを可能にするため、データ処理タスクに理想的である。 PyArrowはその列方向の性質により、パーケットファイル構造を効率的に読み書きができます。

相互運用性：PyArrowの主な利点の一つは、シリアライズやデシリアライズの必要なく、異なるプログラミング言語やシステム間でのデータ交換を容易にする能力です。これは、データサイエンスや機械学習など、複数の言語が使用される環境で特に有効だ。
Pandasとの統合：PyArrowはPandasのバックエンドとして使用でき、効率的なデータ操作と保存を可能にします。 Pandas 2.0からは、NumPy配列の代わりにArrow配列にデータを格納することができるようになり、特に文字列データを扱う際のパフォーマンス向上につながります。
様々なデータ型のサポート：PyArrowはプリミティブ型を含む幅広いデータ型をサポートしています。(整数、浮動小数点数)複合型(構造体、リスト)また、ネストされた型もある。そのため、さまざまな種類のデータを扱うことができる。
ゼロコピー読み込み：PyArrowはゼロコピー読み込みを許可します。つまり、データをコピーせずにArrowメモリフォーマットから読み込むことができます。これによりメモリのオーバーヘッドが減り、パフォーマンスが向上する。

インストール

インストールするにはパイアローのどちらかを使うことができる。pipはい、以下の内容を日本語に翻訳いたします：

以下の内容を日本語に翻訳してください:

IronPDF allows developers to generate, edit and read PDF files in .NET applications. It simplifies the process of integrating PDF functionalities into software development projects.

Let's get started コンダ :

pip install pyarrow

または

conda install pyarrow -c conda-forge

conda install pyarrow -c conda-forge

PYTHON

基本的な使用法

を使用している。Visual Studio Codeをコードエディターとして使用する。新しいファイルpyarrowDemo.pyを作成します。

ここでは、PyArrowを使用してテーブルを作成し、いくつかの基本的な操作を実行する簡単な例を示します：

import pyarrow as pa
import pyarrow.dataset as pt
# Create a PyArrow table
data = [
    pa.array([1, 2, 3]),
    pa.array(['a', 'b', 'c']),
    pa.array([1.1, 2.2, 3.3])
]
table = pa.Table.from_arrays(data, names=['col1', 'col2', 'col3'])
# Display the table
print(table)

import pyarrow as pa
import pyarrow.dataset as pt
# Create a PyArrow table
data = [
    pa.array([1, 2, 3]),
    pa.array(['a', 'b', 'c']),
    pa.array([1.1, 2.2, 3.3])
]
table = pa.Table.from_arrays(data, names=['col1', 'col2', 'col3'])
# Display the table
print(table)

PYTHON

コードの説明

Pythonのコードでは、PyArrowを使用してテーブルを作成しています。(\パ)つの配列から(\pa.array``). そして、'col1'、'col2'、'col3'という名前の列が表示され、それぞれに対応する整数、文字列、浮動小数点数のデータが含まれている。

出力

すずめ(開発者向けの仕組み)：図1 - PyArrowテーブルオブジェクトとその内容を表示するコンソール出力。

パンダとの統合

PyArrowは、以下のものとシームレスに統合できます。パンダス特に大規模なデータセットを扱う場合のパフォーマンスを向上させる。 Pandas DataFrameをPyArrow Tableに変換する例を示します：

import pandas as pd
import pyarrow as pa
# Create a Pandas DataFrame
df = pd.DataFrame({
    'col1': [1, 2, 3],
    'col2': ['a', 'b', 'c'],
    'col3': [1.1, 2.2, 3.3]
})
# Convert the DataFrame to a PyArrow Table
table = pa.Table.from_pandas(df)
# Display the table
print(table)

import pandas as pd
import pyarrow as pa
# Create a Pandas DataFrame
df = pd.DataFrame({
    'col1': [1, 2, 3],
    'col2': ['a', 'b', 'c'],
    'col3': [1.1, 2.2, 3.3]
})
# Convert the DataFrame to a PyArrow Table
table = pa.Table.from_pandas(df)
# Display the table
print(table)

PYTHON

コードの説明

Pythonコードは、Pandas DataFrameをPyArrowテーブルに変換します。(\パ)そして、表を印刷する。 DataFrame は以下の3つの列から構成されます。(\col1, col2, col3)整数、文字列、および浮動小数点数データ。

出力

すずめ(開発者向けの仕組み)：図2 - pandaデータフレームをPyArrowテーブルに変換して生成されたPyArrowテーブルオブジェクトを表示するコンソール出力。

高度な機能

1.ファイル形式

PyArrowはParquetやFeatherのような様々なファイルフォーマットの読み書きをサポートしています。これらのフォーマットはパフォーマンスに最適化されており、データ処理パイプラインで広く使用されている。

2.メモリーマッピング

PyArrowはメモリマップドファイルアクセスをサポートしており、データセット全体をメモリにロードすることなく、大きなデータセットの読み書きを効率的に行うことができます。

3.プロセス間通信

PyArrowはプロセス間通信のためのツールを提供し、異なるプロセス間での効率的なデータ共有を可能にします。

IronPDFの紹介

すずめ(開発者向けの仕組み)：図3 - IronPDF for Python：Python PDFライブラリ

IronPDFPython用のライブラリで、PDFファイルの作成、編集、操作をプログラムで行うことができます。以下のような機能を備えている。HTMLからPDFを生成する既存のPDFにテキスト、画像、図形を追加することができます。テキストと画像の抽出PDFファイルから。主な特徴は以下の通り。

HTMLからのPDF生成

IronPDFはHTMLファイル、HTML文字列、URLを簡単にPDF文書に変換することができます。 ChromeのPDFレンダラーを利用して、次のことができます。ウェブページをレンダリングするを直接PDF形式に変換します。

クロスプラットフォーム互換性

IronPDFはPython 3+と互換性があり、Windows、Mac、Linux、クラウドプラットフォームでシームレスに動作します。にも対応している。.NET, Java, Python、およびNode.js（ノード・ジェイエス）. 環境だ。

編集と署名機能

プロパティを設定し、以下のようなセキュリティ機能を追加することで、PDFドキュメントを拡張します。パスワードとパーミッション、およびデジタル署名の適用.

カスタム・ページ・テンプレートと設定

IronPDFを使えば、カスタマイズ可能なPDFをカスタマイズすることができます。ヘッダー、フッター, ページ番号マージンも調整可能。レスポンシブレイアウトに対応し、カスタム用紙サイズの設定も可能。

規格遵守

IronPDFはPDF/AやPDF/UAを含むPDF標準に準拠しています。サポートしますUTF-8文字エンコーディング画像、CSSスタイル、フォントなどのアセットをシームレスに処理します。

IronPDFとPyArrowを使ってPDFドキュメントを生成する

IronPDFの前提条件

1.IronPDF.NET6.0を基盤技術としている。だから、あなたは.NET 6.0ランタイムシステムにインストールされている。

Python 3.0+: Pythonバージョン3以降がインストールされている必要があります。
pip：PythonパッケージインストーラをインストールするpipIronPDFパッケージのインストール用。

必要なライブラリをインストールする：

pip install pyarrow 
pip install ironpdf

そしてIronPDFとpyarrow Pythonパッケージの使い方を示すために以下のコードを追加します。

import pandas as pd
import pyarrow as pa
from ironpdf import * 
# Apply your license key
License.LicenseKey = "license"
# Create a Pandas DataFrame
df = pd.DataFrame({
    'col1': [1, 2, 3],
    'col2': ['a', 'b', 'c'],
    'col3': [1.1, 2.2, 3.3]
})
# Convert the DataFrame to a PyArrow Table
table = pa.Table.from_pandas(df)
# Display the table
print(table)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with pyarrow</h1>"
content += "<p>table data</p>"
for row in table:
    # Access specific values in a row
    value_in_column1 = row[0]
    value_in_column2 = row[1]
    value_in_column3 = row[2]
    content += "<p>"+str(value_in_column1)+","+str(value_in_column2)+","+str(value_in_column3)+"</p>"    
pdf = renderer.RenderHtmlAsPdf(content)    
    # Export to a file or Stream
pdf.SaveAs("DemoPyarrow.pdf")

import pandas as pd
import pyarrow as pa
from ironpdf import * 
# Apply your license key
License.LicenseKey = "license"
# Create a Pandas DataFrame
df = pd.DataFrame({
    'col1': [1, 2, 3],
    'col2': ['a', 'b', 'c'],
    'col3': [1.1, 2.2, 3.3]
})
# Convert the DataFrame to a PyArrow Table
table = pa.Table.from_pandas(df)
# Display the table
print(table)
renderer = ChromePdfRenderer()
# Create a PDF from a HTML string using Python
content = "<h1>Awesome Iron PDF with pyarrow</h1>"
content += "<p>table data</p>"
for row in table:
    # Access specific values in a row
    value_in_column1 = row[0]
    value_in_column2 = row[1]
    value_in_column3 = row[2]
    content += "<p>"+str(value_in_column1)+","+str(value_in_column2)+","+str(value_in_column3)+"</p>"    
pdf = renderer.RenderHtmlAsPdf(content)    
    # Export to a file or Stream
pdf.SaveAs("DemoPyarrow.pdf")

PYTHON

コードの説明

このスクリプトは、Pandas、PyArrow、IronPDFライブラリを統合して、Pandas DataFrameに格納されたデータからPDFドキュメントを作成することを示します：

パンダのデータフレーム作成:。
- Pandasデータフレームの作成(df)3列(col1, col2, col3)数値データと文字列データを含む。
PyArrowテーブルへの変換:.
- Pandas DataFrame を変換します。(「df)をPyArrowテーブルに変換します。(「テーブル)pa.Table.from_pandasを使用。()メソッド。この変換は、効率的なデータ処理とArrowベースのアプリケーションとの相互運用性を容易にする。
IronPDFによるPDF生成:。
- IronPDFのChromePdfRendererを使用し、そのRenderHtmlAsPdfメソッドを呼び出してPDFドキュメントを生成します。(DemoPyarrow.pdf)HTML 文字列から(内容)ヘッダとPyArrowテーブルから抽出されたデータを含む(テーブル).

出力

すずめ(開発者向けの仕組み)：図4 - pandaデータフレームをPyArrowテーブルに変換して生成されたPyArrowテーブルオブジェクトを表示するコンソール出力。

出力PDF

すずめ(開発者向けの仕組み)：図5 - IronPDF for Python Libraryを使用して生成され、PyArrowテーブルから行単位のデータを表示した出力PDF。

IronPDFライセンス

IronPDF Python..

IronPDFパッケージを使用する前に、ライセンスキーをスクリプトの最初に置いてください：

from ironpdf import * 
# Apply your license key
License.LicenseKey = "key"

from ironpdf import * 
# Apply your license key
License.LicenseKey = "key"

PYTHON

結論

**パイアローは、データ処理タスクのためのPythonの機能を強化する、多用途で強力なライブラリです。効率的なメモリフォーマット、相互運用性機能、Pandasとの統合により、データサイエンティストやエンジニアにとって不可欠なツールとなっている。大規模なデータセットを扱う場合でも、複雑なデータ操作を行う場合でも、データ処理パイプラインを構築する場合でも、PyArrowはこれらのタスクを効率的に処理するために必要なパフォーマンスと柔軟性を提供します。一方、IronPDFは、Pythonアプリケーションから直接PDF文書の作成、操作、レンダリングを簡素化する堅牢なPythonライブラリです。既存のPythonフレームワークとシームレスに統合され、開発者はPDFを動的に生成し、カスタマイズすることができます。両者とともにパイアロー以下のコンテンツを日本語に翻訳してください：IronPDFPythonパッケージは、ユーザーが簡単にデータ構造を処理し、データをアーカイブすることができます。

IronPDFまた、その強力な機能を紹介する数多くのコード例とともに、開発者が使い始められるように包括的なドキュメントも提供している。詳しくはドキュメント以下のコンテンツを日本語に翻訳してください：コード例ページ。

ジョルディ・バルディア

今すぐエンジニアリングチームとチャット

ソフトウェアエンジニア

ジョルディは、Iron Softwareでのスキルを活かしていないときには、ゲームプログラミングをしており、Python、C#、C++に最も堪能です。彼は製品テスト、製品開発、研究の責任を共有しており、継続的な製品改善に大きな価値をもたらしています。この多様な経験は彼を常に挑戦的で魅力的に保ち、彼はIron Softwareで働く一番好きな側面の一つだと言っています。ジョルディはフロリダ州マイアミで育ち、フロリダ大学でコンピューターサイエンスと統計学を学びました。

< 以前
crc32c Python (開発者のための仕組み)

次へ >
暗号技術 Python (開発者のための仕組み)