Pandas 操作を高速化する

Beginner

This tutorial is from open-source community. Access the source code

はじめに

この実験では、Cython、Numba、および pandas.eval() を使用して pandas DataFrame の操作を高速化するさまざまな手法について案内します。これらの手法は、大規模なデータセットを扱う際に大幅な速度向上をもたらすことができます。

VM のヒント

VM の起動が完了したら、左上隅をクリックしてノートブックタブに切り替え、Jupyter Notebook を使って練習しましょう。

時々、Jupyter Notebook が読み込み終了するまで数秒待つ必要がある場合があります。Jupyter Notebook の制限により、操作の検証を自動化することはできません。

学習中に問題に遭遇した場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。

セットアップとサンプルデータの作成

始める前に、必要なモジュールをインポートしてサンプルの DataFrame を作成しましょう。

## 必要なモジュールをインポート
import pandas as pd
import numpy as np

## サンプルの DataFrame を作成
df = pd.DataFrame(
    {
        "a": np.random.randn(1000),
        "b": np.random.randn(1000),
        "N": np.random.randint(100, 1000, (1000)),
        "x": "x",
    }
)
df

純粋な Python 関数の実装

まずは、DataFrame に対して行ごとに操作を行う純粋な Python 関数を作成します。

## 関数を定義
def f(x):
    return x * (x - 1)

## 最初の関数を使用する別の関数を定義
def integrate_f(a, b, N):
       s = 0
       dx = (b - a) / N
       for i in range(N):
           s += f(a + i * dx)
       return s * dx

まとめ

おめでとうございます!「Pandas 操作の高速化」の実験を完了しました。スキルを向上させるために、LabEx でさらに多くの実験を練習してください。