Introdução
Neste laboratório, aprenderemos como usar o método groupby() na biblioteca Pandas em Python. O método groupby() permite dividir um DataFrame em grupos e realizar cálculos ou estatísticas em cada grupo. É uma ferramenta poderosa para análise e manipulação de dados.
Dicas para a VM
Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.
Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.
Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.
Importar as bibliotecas necessárias e criar o DataFrame
Primeiramente, precisamos importar a biblioteca Pandas e criar um objeto DataFrame. Aqui está um exemplo:
import pandas as pd
data = {'Name': ['Avinash', 'Amrutha', 'Chetana', 'Kartik','Nikhil'],
'Percentage': [72, 98, 81, 87,85],
'Course': ['Arts','B.Com','M.Tech','B.SC','BE']}
df = pd.DataFrame(data)
Agrupar o DataFrame por uma única coluna
Para agrupar o DataFrame por uma única coluna, use o método groupby() e especifique o nome da coluna como argumento. Aqui está um exemplo:
grp = df.groupby('Course')
Acessar os grupos
Para acessar os grupos no DataFrame agrupado, use o atributo groups. Ele retorna um dicionário onde as chaves são os nomes dos grupos e os valores são os índices correspondentes das linhas em cada grupo. Aqui está um exemplo:
print(grp.groups)
Agrupar o DataFrame por múltiplas colunas
Para agrupar o DataFrame por múltiplas colunas, passe uma lista de nomes de colunas para o método groupby(). Aqui está um exemplo:
grp = df.groupby(['Course', 'Name'])
Selecionar um único grupo
Para selecionar um único grupo do DataFrame agrupado, use o método get_group() e especifique o nome do grupo como argumento. Aqui está um exemplo:
print(grp.get_group(('Arts', 'Avinash')))
Realizar operações de agregação
Depois de ter um DataFrame agrupado, você pode realizar operações de agregação nos dados agrupados. Por exemplo, você pode calcular a média de uma coluna numérica para cada grupo. Aqui está um exemplo:
print(grp['Percentage'].mean())
Resumo
Neste laboratório, aprendemos como usar o método groupby() na biblioteca Pandas para agrupar um DataFrame por uma ou mais colunas. Também aprendemos como acessar os grupos, selecionar um único grupo e realizar operações de agregação nos dados agrupados. O método groupby() é uma ferramenta poderosa para análise e manipulação de dados, permitindo-nos obter insights de nossos dados, analisando-os em grupos.