Introdução
Neste laboratório, exploraremos como remodelar dados em pandas usando várias funções como sort_values, pivot, pivot_table e melt. Trabalharemos com os conjuntos de dados Titanic e Qualidade do Ar para demonstrar as técnicas de remodelação.
Dicas para a VM
Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.
Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido às limitações do Jupyter Notebook.
Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.
Importar Bibliotecas e Carregar Dados
Primeiramente, vamos importar as bibliotecas necessárias e carregar os conjuntos de dados.
import pandas as pd
## Carregar o conjunto de dados Titanic
titanic = pd.read_csv("data/titanic.csv")
## Carregar o conjunto de dados Qualidade do Ar
air_quality = pd.read_csv("data/air_quality_long.csv", index_col="date.utc", parse_dates=True)
Ordenar Linhas da Tabela
Ordene o conjunto de dados Titanic de acordo com a idade dos passageiros e, em seguida, pela classe da cabine e idade em ordem decrescente.
## Ordenar por Idade
titanic.sort_values(by="Age").head()
## Ordenar por Pclass e Idade em ordem decrescente
titanic.sort_values(by=['Pclass', 'Age'], ascending=False).head()
Converter Formato de Tabela Longo para Largo
Agora, converteremos os dados em formato longo de qualidade do ar para formato largo usando a função pivot.
## Filtrar apenas dados no2
no2 = air_quality[air_quality["parameter"] == "no2"]
## Usar 2 medições (head) para cada localização (groupby)
no2_subset = no2.sort_index().groupby(["location"]).head(2)
## Pivotar os dados
no2_subset.pivot(columns="location", values="value")
Criar uma Tabela Pivot
Crie uma tabela pivot para encontrar as concentrações médias de 𝑁𝑂2 e 𝑃𝑀25 em cada uma das estações.
air_quality.pivot_table(
values="value", index="location", columns="parameter", aggfunc="mean"
)
Converter Formato Largo para Longo
Agora, vamos converter os dados em formato largo de 𝑁𝑂2 para formato longo usando a função melt.
## Resetar o índice para no2_pivoted
no2_pivoted = no2.pivot(columns="location", values="value").reset_index()
## Meltar os dados
no_2 = no2_pivoted.melt(id_vars="date.utc")
Resumo
Neste laboratório, aprendemos como remodelar dados em pandas usando várias funções como sort_values, pivot, pivot_table e melt. Aplicamos essas técnicas nos conjuntos de dados Titanic e Qualidade do Ar para ordenar, pivotar e "meltar" os dados. Essas técnicas de remodelação são essenciais ao trabalhar com dados em pandas e podem nos ajudar a analisar e visualizar os dados de forma eficiente.