はじめに
この実験では、Pandas ライブラリの median() メソッドを使用して DataFrame 内の値の中央値を計算する方法を学びます。median() メソッドを使用することで、データセットの中央値を求めることができ、データの中心的な傾向を表す指標となります。
VM のヒント
VM の起動が完了したら、画面の左上隅をクリックして Notebook タブに切り替え、Jupyter Notebook を起動して演習を行います。
Jupyter Notebook の読み込みには数秒かかる場合があります。Jupyter Notebook の制限により、操作の検証は自動化できません。
学習中に問題が発生した場合は、Labby にお問い合わせください。セッション終了後にフィードバックを提供してください。そうすることで、迅速に問題を解決いたします。
pandas ライブラリをインポートする
まず、データの操作と分析に一般的に使用される「pandas」ライブラリをインポートする必要があります。
import pandas as pd
DataFrame を作成する
次に、pd.DataFrame() コンストラクタを使用して DataFrame オブジェクトを作成します。これにより、データを格納して操作することができます。
df = pd.DataFrame({"A": [0, 52, 78], "B": [77, 45, 96], "C": [16, 23, 135], "D": [17, 22, 56]})
print("------The DataFrame is------")
print(df)
インデックス軸に沿って中央値を計算する
DataFrame のインデックス軸に沿って中央値を計算するには、axis パラメータを 0 に設定した median() メソッドを使用できます。
print("---------------------------")
print(df.median(axis=0))
列軸に沿って中央値を計算する
DataFrame の列軸に沿って中央値を計算するには、axis パラメータを 1 に設定した median() メソッドを使用できます。
print("---------------------------")
print(df.median(axis=1))
欠損値の処理
DataFrame に欠損値が含まれている場合、skipna パラメータを指定することで処理できます。デフォルトでは、skipna は True に設定されており、中央値を計算する際に欠損値は除外されます。欠損値を含めたい場合は、skipna を False に設定できます。
df = pd.DataFrame({"A": [0, None, 78], "B": [77, 45, None], "C": [16, 23, None], "D": [17, 22, 56]})
print("------The DataFrame is------")
print(df)
print("---------------------------")
print(df.median(axis=0, skipna=False))
まとめ
この実験では、Pandas の median() メソッドを使用して DataFrame 内の値の中央値を計算する方法を学びました。インデックス軸と列軸に沿った中央値の計算方法を検討しました。また、中央値を計算する際の欠損値の処理方法も学びました。中央値の計算は、データセットの中央傾向を理解するために役立ち、データ分析において情報に基づいた意思決定に使用できます。