Plotagem com Pandas para Análise da Qualidade do Ar

Beginner

This tutorial is from open-source community. Access the source code

Introdução

Neste laboratório, aprenderemos como criar gráficos usando Pandas, uma poderosa biblioteca de manipulação de dados em Python. Usaremos dados reais de qualidade do ar para ilustrações práticas. Ao final deste laboratório, você deverá ser capaz de usar Pandas para criar gráficos de linhas, gráficos de dispersão (scatter plots), box plots e personalizar seus gráficos.

Dicas para a VM

Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.

Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.

Este é um Lab Guiado, que fornece instruções passo a passo para ajudá-lo a aprender e praticar. Siga as instruções cuidadosamente para completar cada etapa e ganhar experiência prática. Dados históricos mostram que este é um laboratório de nível iniciante com uma taxa de conclusão de 93%. Recebeu uma taxa de avaliações positivas de 93% dos estudantes.

Importando as Bibliotecas Necessárias

Primeiramente, precisamos importar as bibliotecas necessárias. Usaremos Pandas para manipulação de dados e Matplotlib para visualização de dados.

## Importando as bibliotecas necessárias
import pandas as pd
import matplotlib.pyplot as plt

Carregando os Dados

Usaremos dados de qualidade do ar para este tutorial. Os dados serão carregados de um arquivo CSV em um DataFrame do Pandas.

## Carregando os dados
air_quality = pd.read_csv("data/air_quality_no2.csv", index_col=0, parse_dates=True)
air_quality.head()

Criando um Gráfico de Linhas

O Pandas cria um gráfico de linhas para cada uma das colunas com dados numéricos por padrão. Isso nos dá uma visão geral visual rápida dos dados.

## Criando um gráfico de linhas
air_quality.plot()
plt.show()

Criando um Gráfico para uma Coluna Específica

Para plotar uma coluna específica, podemos usar o método de seleção em combinação com o método plot.

## Criando um gráfico para uma coluna específica
air_quality["station_paris"].plot()
plt.show()

Criando um Gráfico de Dispersão (Scatter Plot)

Para comparar visualmente os valores de NO2 medidos em Londres versus Paris, podemos criar um gráfico de dispersão (scatter plot).

## Criando um gráfico de dispersão
air_quality.plot.scatter(x="station_london", y="station_paris", alpha=0.5)
plt.show()

Criando um Gráfico de Caixa (Box Plot)

Um gráfico de caixa (box plot) nos dá uma boa visão geral da distribuição dos dados. Podemos criar um gráfico de caixa para os nossos dados de qualidade do ar.

## Criando um gráfico de caixa
air_quality.plot.box()
plt.show()

Criando Subplots para Cada Coluna

Podemos criar subplots separados para cada uma das colunas de dados usando o argumento subplots.

## Criando subplots para cada coluna
axs = air_quality.plot.area(figsize=(12, 4), subplots=True)
plt.show()

Personalizando e Salvando o Gráfico

Podemos personalizar ainda mais o gráfico usando as opções de personalização do Matplotlib. Também podemos salvar o gráfico em um arquivo.

## Personalizando e salvando o gráfico
fig, axs = plt.subplots(figsize=(12, 4))
air_quality.plot.area(ax=axs)
axs.set_ylabel("Concentração de NO$_2$")
fig.savefig("no2_concentrations.png")
plt.show()

Resumo

Neste laboratório, aprendemos como criar vários tipos de gráficos usando Pandas. Também aprendemos como personalizar e salvar esses gráficos. Este conhecimento será muito útil para tarefas de análise e visualização de dados.