はじめに
この実験では、Python の Pandas ライブラリの groupby() メソッドの使い方を学びます。groupby() メソッドを使うと、DataFrame をグループに分割し、各グループに対して計算や統計を行うことができます。これはデータ分析と操作に強力なツールです。
VM のヒント
VM の起動が完了したら、左上隅をクリックして Notebook タブに切り替え、Jupyter Notebook を使って練習しましょう。
Jupyter Notebook の読み込みには数秒かかる場合があります。Jupyter Notebook の制限により、操作の検証は自動化できません。
学習中に問題がある場合は、Labby にお問い合わせください。セッション終了後にフィードバックを提供してください。すぐに問題を解決いたします。
必要なライブラリをインポートして DataFrame を作成する
まず、Pandas ライブラリをインポートして DataFrame オブジェクトを作成する必要があります。以下は例です。
import pandas as pd
data = {'Name': ['Avinash', 'Amrutha', 'Chetana', 'Kartik','Nikhil'],
'Percentage': [72, 98, 81, 87,85],
'Course': ['Arts','B.Com','M.Tech','B.SC','BE']}
df = pd.DataFrame(data)
DataFrame を単一の列でグループ化する
DataFrame を単一の列でグループ化するには、groupby() メソッドを使用して、列名を引数として指定します。以下は例です。
grp = df.groupby('Course')
グループにアクセスする
グループ化された DataFrame のグループにアクセスするには、groups 属性を使用します。これは辞書を返し、キーがグループ名で、値が各グループの行の対応するインデックスになっています。以下は例です。
print(grp.groups)
DataFrame を複数の列でグループ化する
DataFrame を複数の列でグループ化するには、列名のリストを groupby() メソッドに渡します。以下は例です。
grp = df.groupby(['Course', 'Name'])
単一のグループを選択する
グループ化された DataFrame から単一のグループを選択するには、get_group() メソッドを使用して、グループ名を引数として指定します。以下は例です。
print(grp.get_group(('Arts', 'Avinash')))
集約操作を実行する
グループ化された DataFrame を取得したら、グループ化されたデータに対して集約操作を行うことができます。たとえば、各グループの数値列の平均を計算することができます。以下は例です。
print(grp['Percentage'].mean())
まとめ
この実験では、Pandas ライブラリの groupby() メソッドを使用して、DataFrame を 1 つ以上の列でグループ化する方法を学びました。また、グループにアクセスし、単一のグループを選択し、グループ化されたデータに対して集約操作を行う方法も学びました。groupby() メソッドは、データ分析と操作に強力なツールであり、グループ単位でデータを分析することで、データから洞察を得ることができます。