Gráficos con Pandas para el Análisis de la Calidad del Aire

Beginner

This tutorial is from open-source community. Access the source code

Introducción

En este laboratorio, aprenderemos a crear gráficos utilizando Pandas, una poderosa biblioteca de manipulación de datos en Python. Utilizaremos datos reales de calidad del aire para ilustraciones prácticas. Al final de este laboratorio, deberías ser capaz de utilizar Pandas para crear gráficos de líneas, gráficos de dispersión, gráficos de caja y personalizar tus gráficos.

Consejos sobre la VM

Una vez que se haya iniciado la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.

A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de las operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.

Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje comentarios después de la sesión y resolveremos rápidamente el problema para usted.

Este es un Guided Lab, que proporciona instrucciones paso a paso para ayudarte a aprender y practicar. Sigue las instrucciones cuidadosamente para completar cada paso y obtener experiencia práctica. Los datos históricos muestran que este es un laboratorio de nivel principiante con una tasa de finalización del 93%. Ha recibido una tasa de reseñas positivas del 93% por parte de los estudiantes.

Importar las bibliotecas necesarias

Primero, necesitamos importar las bibliotecas necesarias. Utilizaremos Pandas para la manipulación de datos y Matplotlib para la visualización de datos.

## Importando las bibliotecas necesarias
import pandas as pd
import matplotlib.pyplot as plt

Cargar los datos

Para este tutorial, utilizaremos datos de calidad del aire. Los datos se cargarán desde un archivo CSV en un DataFrame de Pandas.

## Cargando los datos
air_quality = pd.read_csv("data/air_quality_no2.csv", index_col=0, parse_dates=True)
air_quality.head()

Crear un gráfico de líneas

Por defecto, Pandas crea un gráfico de líneas para cada una de las columnas con datos numéricos. Esto nos da una visión general visual rápida de los datos.

## Creando un gráfico de líneas
air_quality.plot()
plt.show()

Crear un gráfico para una columna específica

Para crear un gráfico de una columna específica, podemos utilizar el método de selección en combinación con el método de trazado.

## Creando un gráfico para una columna específica
air_quality["station_paris"].plot()
plt.show()

Crear un gráfico de dispersión

Para comparar visualmente los valores de NO2 medidas en Londres y París, podemos crear un gráfico de dispersión.

## Creando un gráfico de dispersión
air_quality.plot.scatter(x="station_london", y="station_paris", alpha=0.5)
plt.show()

Crear un diagrama de caja

Un diagrama de caja nos da una buena idea de la distribución de los datos. Podemos crear un diagrama de caja para nuestros datos de calidad del aire.

## Creando un diagrama de caja
air_quality.plot.box()
plt.show()

Crear subgráficos para cada columna

Podemos crear subgráficos separados para cada una de las columnas de datos utilizando el argumento subplots.

## Creando subgráficos para cada columna
axs = air_quality.plot.area(figsize=(12, 4), subplots=True)
plt.show()

Personalizar y guardar el gráfico

Podemos personalizar aún más el gráfico utilizando las opciones de personalización de Matplotlib. También podemos guardar el gráfico en un archivo.

## Personalizando y guardando el gráfico
fig, axs = plt.subplots(figsize=(12, 4))
air_quality.plot.area(ax=axs)
axs.set_ylabel("Concentración de NO$_2$")
fig.savefig("no2_concentraciones.png")
plt.show()

Resumen

En este laboratorio, hemos aprendido cómo crear varios tipos de gráficos utilizando Pandas. También hemos aprendido cómo personalizar y guardar estos gráficos. Este conocimiento será muy útil para las tareas de análisis y visualización de datos.