Méthode boxplot() pour les DataFrame de Pandas

PythonPythonBeginner
Pratiquer maintenant

💡 Ce tutoriel est traduit par l'IA à partir de la version anglaise. Pour voir la version originale, vous pouvez cliquer ici

Introduction

Dans ce laboratoire, vous allez apprendre à utiliser la méthode boxplot() de la bibliothèque Pandas pour créer des diagrammes en boîte à partir des colonnes d'un DataFrame. Un diagramme en boîte, également connu sous le nom de diagramme en boîte et barres, est une représentation graphique qui affiche le résumé à cinq chiffres d'un ensemble de données : minimum, premier quartile, médiane, troisième quartile et maximum.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Carnet de notes pour accéder à Jupyter Notebook pour la pratique.

Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.

Importez les bibliothèques nécessaires

Pour commencer, vous devez importer les bibliothèques nécessaires. Dans ce cas, vous utiliserez la bibliothèque Pandas.

import pandas as pd

Créez un DataFrame

Ensuite, vous allez créer un DataFrame avec lequel travailler. Cela peut être fait en passant un dictionnaire ou une liste de listes à la fonction pd.DataFrame(). Pour cet exemple, créons un DataFrame avec les notes des étudiants dans différents sujets.

df = pd.DataFrame([
    ['Abhishek', 75, 80, 90],
    ['Anurag', 80, 90, 95],
    ['Bavya', 80, 82, 85],
    ['Bavana', 95, 92, 92],
    ['Chetan', 85, 90, 89]
], columns=['Name', 'Maths', 'Science', 'Social'])

Générez un diagramme en boîte

Maintenant, vous pouvez utiliser la méthode boxplot() pour générer un diagramme en boîte à partir des colonnes du DataFrame. Cela peut être fait en passant les noms de colonnes sous forme de liste au paramètre column. Par exemple, pour créer un diagramme en boîte pour la colonne 'Social' :

boxplot = df.boxplot(column=['Social'])

La méthode boxplot() renvoie un objet Axes, qui peut être utilisé pour personnaliser davantage le tracé si nécessaire.

Personnalisez le diagramme en boîte

Vous pouvez personnaliser l'apparence du diagramme en boîte en utilisant divers paramètres disponibles dans la méthode boxplot(). Par exemple, vous pouvez ajuster la taille de police des étiquettes d'échelle en utilisant le paramètre fontsize, faire pivoter les étiquettes en utilisant le paramètre rot et afficher ou masquer la grille en utilisant le paramètre grid.

boxplot = df.boxplot(column=['Social'], fontsize=12, rot=45, grid=True)

Grouper les données et créer plusieurs diagrammes en boîte

Si vous voulez comparer les données entre différents groupes, vous pouvez utiliser le paramètre by pour regrouper les données sur une colonne spécifique. Par exemple, pour créer un diagramme en boîte pour la colonne 'Social' regroupée par la colonne 'DOB' :

boxplot = df.boxplot(column=['Social'], by='DOB')

Cela générera un diagramme en boîte séparé pour chaque valeur de la colonne 'DOB'.

Sommaire

Dans ce laboratoire, vous avez appris à utiliser la méthode boxplot() de la bibliothèque Pandas pour créer des diagrammes en boîte à partir des colonnes d'un DataFrame. Vous avez appris à personnaliser l'apparence des diagrammes en boîte et à regrouper les données pour créer plusieurs diagrammes en boîte. Les diagrammes en boîte sont un outil de visualisation utile pour comprendre la distribution et la variabilité des données. Ils fournissent un résumé visuel qui inclut des informations telles que la médiane, les quartiles et tout valeur aberrante présente dans l'ensemble de données. Cela peut aider à identifier les tendances, les modèles et les anomalies dans les données.