Pandas DataFrame のボックスプロットメソッド

PythonPythonBeginner
今すぐ練習

💡 このチュートリアルは英語版からAIによって翻訳されています。原文を確認するには、 ここをクリックしてください

はじめに

この実験では、Pandas ライブラリの boxplot() メソッドを使って、DataFrame の列からボックスプロットを作成する方法を学びます。ボックスプロットは、ボックスとひげ図とも呼ばれ、データセットの 5 数要約(最小値、第 1 四分位数、中央値、第 3 四分位数、最大値)を表示するグラフィカルな表現です。

VM のヒント

VM の起動が完了したら、左上隅をクリックして ノートブック タブに切り替え、Jupyter Notebook を使って練習します。

時々、Jupyter Notebook が読み込み終わるまで数秒待つ必要があります。Jupyter Notebook の制限により、操作の検証は自動化できません。

学習中に問題がある場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。

必要なライブラリをインポートする

まずは、必要なライブラリをインポートする必要があります。この場合、Pandas ライブラリを使用します。

import pandas as pd

DataFrame を作成する

次に、操作対象の DataFrame を作成します。これは、辞書またはリストのリストを pd.DataFrame() 関数に渡すことで行えます。この例では、異なる教科の学生の成績を含む DataFrame を作成しましょう。

df = pd.DataFrame([
    ['Abhishek', 75, 80, 90],
    ['Anurag', 80, 90, 95],
    ['Bavya', 80, 82, 85],
    ['Bavana', 95, 92, 92],
    ['Chetan', 85, 90, 89]
], columns=['Name', 'Maths', 'Science', 'Social'])

ボックスプロットを生成する

これで、DataFrame の列からボックスプロットを生成するために boxplot() メソッドを使用できます。これは、列名をリストとして column パラメータに渡すことで行えます。たとえば、'Social' 列のボックスプロットを作成するには:

boxplot = df.boxplot(column=['Social'])

boxplot() メソッドは Axes オブジェクトを返し、必要に応じてこれを使用してプロットをさらにカスタマイズできます。

ボックスプロットをカスタマイズする

boxplot() メソッドに用意されているさまざまなパラメータを使って、ボックスプロットの外観をカスタマイズできます。たとえば、目盛りのラベルのフォントサイズを fontsize パラメータを使って調整したり、rot パラメータを使ってラベルを回転させたり、grid パラメータを使ってグリッドを表示または非表示にしたりできます。

boxplot = df.boxplot(column=['Social'], fontsize=12, rot=45, grid=True)

データをグループ化して複数のボックスプロットを作成する

異なるグループ間のデータを比較したい場合は、特定の列に基づいてデータをグループ化するために by パラメータを使用できます。たとえば、'DOB' 列に基づいてグループ化された 'Social' 列のボックスプロットを作成するには:

boxplot = df.boxplot(column=['Social'], by='DOB')

これにより、'DOB' 列の各値に対して個別のボックスプロットが生成されます。

まとめ

この実験では、Pandas ライブラリの boxplot() メソッドを使って DataFrame の列からボックスプロットを作成する方法を学びました。また、ボックスプロットの外観をカスタマイズする方法と、複数のボックスプロットを作成するためにデータをグループ化する方法も学びました。ボックスプロットは、データの分布と分散を理解するための便利な可視化ツールです。中央値、四分位数、データセットに存在する外れ値などの情報を含む可視化された概要を提供します。これにより、データの傾向、パターン、異常を特定するのに役立ちます。