Méthode groupby du DataFrame Pandas

Beginner

Introduction

Dans ce laboratoire, nous allons apprendre à utiliser la méthode groupby() de la bibliothèque Pandas en Python. La méthode groupby() nous permet de diviser un DataFrame en groupes et d'effectuer des calculs ou des statistiques sur chaque groupe. C'est un outil puissant pour l'analyse et la manipulation de données.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Notebook pour accéder à Jupyter Notebook pour la pratique.

Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.

Importer les bibliothèques nécessaires et créer le DataFrame

Tout d'abord, nous devons importer la bibliothèque Pandas et créer un objet DataFrame. Voici un exemple :

import pandas as pd

data = {'Name': ['Avinash', 'Amrutha', 'Chetana', 'Kartik','Nikhil'],
        'Percentage': [72, 98, 81, 87,85],
        'Course': ['Arts','B.Com','M.Tech','B.SC','BE']}

df = pd.DataFrame(data)

Regrouper le DataFrame par une seule colonne

Pour grouper le DataFrame par une seule colonne, utilisez la méthode groupby() et spécifiez le nom de la colonne en tant qu'argument. Voici un exemple :

grp = df.groupby('Course')

Accéder aux groupes

Pour accéder aux groupes dans le DataFrame groupé, utilisez l'attribut groups. Il renvoie un dictionnaire où les clés sont les noms des groupes et les valeurs sont les indices correspondants des lignes dans chaque groupe. Voici un exemple :

print(grp.groups)

Regrouper le DataFrame par plusieurs colonnes

Pour grouper le DataFrame par plusieurs colonnes, passez une liste de noms de colonnes à la méthode groupby(). Voici un exemple :

grp = df.groupby(['Course', 'Name'])

Sélectionner un seul groupe

Pour sélectionner un seul groupe dans le DataFrame groupé, utilisez la méthode get_group() et spécifiez le nom du groupe en tant qu'argument. Voici un exemple :

print(grp.get_group(('Arts', 'Avinash')))

Effectuer des opérations d'agrégation

Une fois que vous avez un DataFrame groupé, vous pouvez effectuer des opérations d'agrégation sur les données groupées. Par exemple, vous pouvez calculer la moyenne d'une colonne numérique pour chaque groupe. Voici un exemple :

print(grp['Percentage'].mean())

Résumé

Dans ce laboratoire, nous avons appris à utiliser la méthode groupby() de la bibliothèque Pandas pour grouper un DataFrame par une ou plusieurs colonnes. Nous avons également appris à accéder aux groupes, à sélectionner un seul groupe et à effectuer des opérations d'agrégation sur les données groupées. La méthode groupby() est un outil puissant pour l'analyse et la manipulation de données, nous permettant de tirer des informations de nos données en les analysant par groupes.