Método groupby de DataFrame de Pandas

Beginner

Introducción

En este laboratorio, aprenderemos a usar el método groupby() de la biblioteca Pandas en Python. El método groupby() nos permite dividir un DataFrame en grupos y realizar cálculos o estadísticas en cada grupo. Es una herramienta poderosa para el análisis y manipulación de datos.

Consejos sobre la VM

Una vez finalizada la inicialización de la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.

A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de las operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.

Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje su retroalimentación después de la sesión y le resolveremos el problema inmediatamente.

Importar las bibliotecas necesarias y crear el DataFrame

Primero, necesitamos importar la biblioteca Pandas y crear un objeto DataFrame. Aquí hay un ejemplo:

import pandas as pd

data = {'Name': ['Avinash', 'Amrutha', 'Chetana', 'Kartik','Nikhil'],
        'Percentage': [72, 98, 81, 87,85],
        'Course': ['Arts','B.Com','M.Tech','B.SC','BE']}

df = pd.DataFrame(data)

Agrupar el DataFrame por una sola columna

Para agrupar el DataFrame por una sola columna, use el método groupby() y especifique el nombre de la columna como argumento. Aquí hay un ejemplo:

grp = df.groupby('Course')

Acceder a los grupos

Para acceder a los grupos en el DataFrame agrupado, use el atributo groups. Devuelve un diccionario donde las claves son los nombres de los grupos y los valores son los índices correspondientes de las filas en cada grupo. Aquí hay un ejemplo:

print(grp.groups)

Agrupar el DataFrame por múltiples columnas

Para agrupar el DataFrame por múltiples columnas, pase una lista de nombres de columnas al método groupby(). Aquí hay un ejemplo:

grp = df.groupby(['Course', 'Name'])

Seleccionar un solo grupo

Para seleccionar un solo grupo del DataFrame agrupado, use el método get_group() y especifique el nombre del grupo como argumento. Aquí hay un ejemplo:

print(grp.get_group(('Arts', 'Avinash')))

Realizar operaciones de agregación

Una vez que tienes un DataFrame agrupado, puedes realizar operaciones de agregación en los datos agrupados. Por ejemplo, puedes calcular la media de una columna numérica para cada grupo. Aquí hay un ejemplo:

print(grp['Percentage'].mean())

Resumen

En este laboratorio, aprendimos cómo usar el método groupby() en la biblioteca Pandas para agrupar un DataFrame por una o más columnas. También aprendimos cómo acceder a los grupos, seleccionar un solo grupo y realizar operaciones de agregación en los datos agrupados. El método groupby() es una herramienta poderosa para el análisis y manipulación de datos, lo que nos permite obtener información de nuestros datos al analizarlos en grupos.