Pandas DataFrame の groupby メソッド：強力なデータ分析ツール

はじめに

この実験では、Python の Pandas ライブラリの groupby() メソッドの使い方を学びます。groupby() メソッドを使うと、DataFrame をグループに分割し、各グループに対して計算や統計を行うことができます。これはデータ分析と操作に強力なツールです。

VM のヒント

VM の起動が完了したら、左上隅をクリックして Notebook タブに切り替え、Jupyter Notebook を使って練習しましょう。

Jupyter Notebook の読み込みには数秒かかる場合があります。Jupyter Notebook の制限により、操作の検証は自動化できません。

学習中に問題がある場合は、Labby にお問い合わせください。セッション終了後にフィードバックを提供してください。すぐに問題を解決いたします。

必要なライブラリをインポートして DataFrame を作成する

まず、Pandas ライブラリをインポートして DataFrame オブジェクトを作成する必要があります。以下は例です。

import pandas as pd

data = {'Name': ['Avinash', 'Amrutha', 'Chetana', 'Kartik','Nikhil'],
        'Percentage': [72, 98, 81, 87,85],
        'Course': ['Arts','B.Com','M.Tech','B.SC','BE']}

df = pd.DataFrame(data)

DataFrame を単一の列でグループ化する

DataFrame を単一の列でグループ化するには、groupby() メソッドを使用して、列名を引数として指定します。以下は例です。

grp = df.groupby('Course')

グループにアクセスする

グループ化された DataFrame のグループにアクセスするには、groups 属性を使用します。これは辞書を返し、キーがグループ名で、値が各グループの行の対応するインデックスになっています。以下は例です。

print(grp.groups)

DataFrame を複数の列でグループ化する

DataFrame を複数の列でグループ化するには、列名のリストを groupby() メソッドに渡します。以下は例です。

grp = df.groupby(['Course', 'Name'])

単一のグループを選択する

グループ化された DataFrame から単一のグループを選択するには、get_group() メソッドを使用して、グループ名を引数として指定します。以下は例です。

print(grp.get_group(('Arts', 'Avinash')))

集約操作を実行する

グループ化された DataFrame を取得したら、グループ化されたデータに対して集約操作を行うことができます。たとえば、各グループの数値列の平均を計算することができます。以下は例です。

print(grp['Percentage'].mean())

まとめ

この実験では、Pandas ライブラリの groupby() メソッドを使用して、DataFrame を 1 つ以上の列でグループ化する方法を学びました。また、グループにアクセスし、単一のグループを選択し、グループ化されたデータに対して集約操作を行う方法も学びました。groupby() メソッドは、データ分析と操作に強力なツールであり、グループ単位でデータを分析することで、データから洞察を得ることができます。