はじめに
この実験では、Cython、Numba、および pandas.eval() を使用して pandas DataFrame の操作を高速化するさまざまな手法について案内します。これらの手法は、大規模なデータセットを扱う際に大幅な速度向上をもたらすことができます。
VM のヒント
VM の起動が完了したら、左上隅をクリックしてノートブックタブに切り替え、Jupyter Notebook を使って練習しましょう。
時々、Jupyter Notebook が読み込み終了するまで数秒待つ必要がある場合があります。Jupyter Notebook の制限により、操作の検証を自動化することはできません。
学習中に問題に遭遇した場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。
セットアップとサンプルデータの作成
始める前に、必要なモジュールをインポートしてサンプルの DataFrame を作成しましょう。
## 必要なモジュールをインポート
import pandas as pd
import numpy as np
## サンプルの DataFrame を作成
df = pd.DataFrame(
{
"a": np.random.randn(1000),
"b": np.random.randn(1000),
"N": np.random.randint(100, 1000, (1000)),
"x": "x",
}
)
df
純粋な Python 関数の実装
まずは、DataFrame に対して行ごとに操作を行う純粋な Python 関数を作成します。
## 関数を定義
def f(x):
return x * (x - 1)
## 最初の関数を使用する別の関数を定義
def integrate_f(a, b, N):
s = 0
dx = (b - a) / N
for i in range(N):
s += f(a + i * dx)
return s * dx
まとめ
おめでとうございます!「Pandas 操作の高速化」の実験を完了しました。スキルを向上させるために、LabEx でさらに多くの実験を練習してください。