Pandas操作を高速化する

PythonPythonBeginner
今すぐ練習

This tutorial is from open-source community. Access the source code

💡 このチュートリアルは英語版からAIによって翻訳されています。原文を確認するには、 ここをクリックしてください

はじめに

この実験では、Cython、Numba、およびpandas.eval()を使用してpandas DataFrameの操作を高速化するさまざまな手法について案内します。これらの手法は、大規模なデータセットを扱う際に大幅な速度向上をもたらすことができます。

VMのヒント

VMの起動が完了したら、左上隅をクリックしてノートブックタブに切り替え、Jupyter Notebookを使って練習しましょう。

時々、Jupyter Notebookが読み込み終了するまで数秒待つ必要がある場合があります。Jupyter Notebookの制限により、操作の検証を自動化することはできません。

学習中に問題に遭遇した場合は、Labbyにお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。

セットアップとサンプルデータの作成

始める前に、必要なモジュールをインポートしてサンプルのDataFrameを作成しましょう。

## 必要なモジュールをインポート
import pandas as pd
import numpy as np

## サンプルのDataFrameを作成
df = pd.DataFrame(
    {
        "a": np.random.randn(1000),
        "b": np.random.randn(1000),
        "N": np.random.randint(100, 1000, (1000)),
        "x": "x",
    }
)
df

純粋なPython関数の実装

まずは、DataFrameに対して行ごとに操作を行う純粋なPython関数を作成します。

## 関数を定義
def f(x):
    return x * (x - 1)

## 最初の関数を使用する別の関数を定義
def integrate_f(a, b, N):
       s = 0
       dx = (b - a) / N
       for i in range(N):
           s += f(a + i * dx)
       return s * dx

まとめ

おめでとうございます!「Pandas操作の高速化」の実験を完了しました。スキルを向上させるために、LabExでさらに多くの実験を練習してください。