Pandas DataFrame 中央値メソッドの習得

はじめに

この実験では、Pandas ライブラリの median() メソッドを使用して DataFrame 内の値の中央値を計算する方法を学びます。median() メソッドを使用することで、データセットの中央値を求めることができ、データの中心的な傾向を表す指標となります。

VM のヒント

VM の起動が完了したら、画面の左上隅をクリックして Notebook タブに切り替え、Jupyter Notebook を起動して演習を行います。

Jupyter Notebook の読み込みには数秒かかる場合があります。Jupyter Notebook の制限により、操作の検証は自動化できません。

学習中に問題が発生した場合は、Labby にお問い合わせください。セッション終了後にフィードバックを提供してください。そうすることで、迅速に問題を解決いたします。

pandas ライブラリをインポートする

まず、データの操作と分析に一般的に使用される「pandas」ライブラリをインポートする必要があります。

import pandas as pd

DataFrame を作成する

次に、pd.DataFrame() コンストラクタを使用して DataFrame オブジェクトを作成します。これにより、データを格納して操作することができます。

df = pd.DataFrame({"A": [0, 52, 78], "B": [77, 45, 96], "C": [16, 23, 135], "D": [17, 22, 56]})
print("------The DataFrame is------")
print(df)

インデックス軸に沿って中央値を計算する

DataFrame のインデックス軸に沿って中央値を計算するには、axis パラメータを 0 に設定した median() メソッドを使用できます。

print("---------------------------")
print(df.median(axis=0))

列軸に沿って中央値を計算する

DataFrame の列軸に沿って中央値を計算するには、axis パラメータを 1 に設定した median() メソッドを使用できます。

print("---------------------------")
print(df.median(axis=1))

欠損値の処理

DataFrame に欠損値が含まれている場合、skipna パラメータを指定することで処理できます。デフォルトでは、skipna は True に設定されており、中央値を計算する際に欠損値は除外されます。欠損値を含めたい場合は、skipna を False に設定できます。

df = pd.DataFrame({"A": [0, None, 78], "B": [77, 45, None], "C": [16, 23, None], "D": [17, 22, 56]})
print("------The DataFrame is------")
print(df)
print("---------------------------")
print(df.median(axis=0, skipna=False))

まとめ

この実験では、Pandas の median() メソッドを使用して DataFrame 内の値の中央値を計算する方法を学びました。インデックス軸と列軸に沿った中央値の計算方法を検討しました。また、中央値を計算する際の欠損値の処理方法も学びました。中央値の計算は、データセットの中央傾向を理解するために役立ち、データ分析において情報に基づいた意思決定に使用できます。

Pandas DataFrame の中央値メソッド