Combinando Tabelas de Dados em Pandas

Beginner

This tutorial is from open-source community. Access the source code

Introdução

Neste laboratório, trabalharemos com dados de qualidade do ar para explorar como combinar múltiplas tabelas usando a biblioteca Pandas do Python. Usaremos as funções concat e merge para realizar essas operações. Este laboratório ajudará você a entender como concatenar e mesclar data frames de forma eficaz.

Dicas para a VM

Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.

Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.

Este é um Lab Guiado, que fornece instruções passo a passo para ajudá-lo a aprender e praticar. Siga as instruções cuidadosamente para completar cada etapa e ganhar experiência prática. Dados históricos mostram que este é um laboratório de nível iniciante com uma taxa de conclusão de 95%. Recebeu uma taxa de avaliações positivas de 100% dos estudantes.

Importar as Bibliotecas Necessárias

Nosso primeiro passo é importar as bibliotecas de que precisaremos. Para este laboratório, usaremos a biblioteca pandas.

## Import the required library
import pandas as pd

Carregar os Conjuntos de Dados

Carregaremos dois conjuntos de dados relacionados à qualidade do ar. Um contém dados de Nitrato e o outro contém dados de Material Particulado.

## Load the Nitrate data
air_quality_no2 = pd.read_csv("data/air_quality_no2_long.csv", parse_dates=True)
air_quality_no2 = air_quality_no2[["date.utc", "location", "parameter", "value"]]

## Load the Particulate matter data
air_quality_pm25 = pd.read_csv("data/air_quality_pm25_long.csv", parse_dates=True)
air_quality_pm25 = air_quality_pm25[["date.utc", "location", "parameter", "value"]]

Concatenando os Conjuntos de Dados

Em seguida, combinaremos as medições de Nitrato e Material Particulado em uma única tabela usando a função concat.

## Concatenate the two dataframes
air_quality = pd.concat([air_quality_pm25, air_quality_no2], axis=0)

Mesclar Tabelas Usando um Identificador Comum

Em seguida, adicionaremos as coordenadas das estações à tabela de medições usando a função merge. Realizaremos um left join na coluna location.

## Load the stations coordinates data
stations_coord = pd.read_csv("data/air_quality_stations.csv")

## Merge the air_quality and stations_coord dataframes
air_quality = pd.merge(air_quality, stations_coord, how="left", on="location")

Adicionar a Descrição Completa e o Nome dos Parâmetros

Finalmente, adicionaremos a descrição completa e o nome dos parâmetros à tabela de medições. Realizamos um left join nas colunas parameter e id.

## Load the air quality parameters data
air_quality_parameters = pd.read_csv("data/air_quality_parameters.csv")

## Merge the air_quality and air_quality_parameters dataframes
air_quality = pd.merge(air_quality, air_quality_parameters, how='left', left_on='parameter', right_on='id')

Resumo

Neste laboratório, aprendemos como combinar múltiplas tabelas em pandas. Usamos a função concat para concatenar tabelas e a função merge para juntar tabelas usando um identificador comum. Essas operações são cruciais ao trabalhar com múltiplas fontes de dados que precisam ser combinadas em um único conjunto de dados coerente para análise.