Remodelando Dados com Pandas

Beginner

This tutorial is from open-source community. Access the source code

Introdução

Neste laboratório, exploraremos como remodelar dados em pandas usando várias funções como sort_values, pivot, pivot_table e melt. Trabalharemos com os conjuntos de dados Titanic e Qualidade do Ar para demonstrar as técnicas de remodelação.

Dicas para a VM

Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.

Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido às limitações do Jupyter Notebook.

Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.

Este é um Lab Guiado, que fornece instruções passo a passo para ajudá-lo a aprender e praticar. Siga as instruções cuidadosamente para completar cada etapa e ganhar experiência prática. Dados históricos mostram que este é um laboratório de nível iniciante com uma taxa de conclusão de 97%. Recebeu uma taxa de avaliações positivas de 100% dos estudantes.

Importar Bibliotecas e Carregar Dados

Primeiramente, vamos importar as bibliotecas necessárias e carregar os conjuntos de dados.

import pandas as pd

## Carregar o conjunto de dados Titanic
titanic = pd.read_csv("data/titanic.csv")

## Carregar o conjunto de dados Qualidade do Ar
air_quality = pd.read_csv("data/air_quality_long.csv", index_col="date.utc", parse_dates=True)

Ordenar Linhas da Tabela

Ordene o conjunto de dados Titanic de acordo com a idade dos passageiros e, em seguida, pela classe da cabine e idade em ordem decrescente.

## Ordenar por Idade
titanic.sort_values(by="Age").head()

## Ordenar por Pclass e Idade em ordem decrescente
titanic.sort_values(by=['Pclass', 'Age'], ascending=False).head()

Converter Formato de Tabela Longo para Largo

Agora, converteremos os dados em formato longo de qualidade do ar para formato largo usando a função pivot.

## Filtrar apenas dados no2
no2 = air_quality[air_quality["parameter"] == "no2"]

## Usar 2 medições (head) para cada localização (groupby)
no2_subset = no2.sort_index().groupby(["location"]).head(2)

## Pivotar os dados
no2_subset.pivot(columns="location", values="value")

Criar uma Tabela Pivot

Crie uma tabela pivot para encontrar as concentrações médias de 𝑁𝑂2 e 𝑃𝑀25 em cada uma das estações.

air_quality.pivot_table(
    values="value", index="location", columns="parameter", aggfunc="mean"
)

Converter Formato Largo para Longo

Agora, vamos converter os dados em formato largo de 𝑁𝑂2 para formato longo usando a função melt.

## Resetar o índice para no2_pivoted
no2_pivoted = no2.pivot(columns="location", values="value").reset_index()

## Meltar os dados
no_2 = no2_pivoted.melt(id_vars="date.utc")

Resumo

Neste laboratório, aprendemos como remodelar dados em pandas usando várias funções como sort_values, pivot, pivot_table e melt. Aplicamos essas técnicas nos conjuntos de dados Titanic e Qualidade do Ar para ordenar, pivotar e "meltar" os dados. Essas técnicas de remodelação são essenciais ao trabalhar com dados em pandas e podem nos ajudar a analisar e visualizar os dados de forma eficiente.