Introducción
En este laboratorio, aprenderemos a crear gráficos utilizando Pandas, una poderosa biblioteca de manipulación de datos en Python. Utilizaremos datos reales de calidad del aire para ilustraciones prácticas. Al final de este laboratorio, deberías ser capaz de utilizar Pandas para crear gráficos de líneas, gráficos de dispersión, gráficos de caja y personalizar tus gráficos.
Consejos sobre la VM
Una vez que se haya iniciado la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.
A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de las operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.
Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje comentarios después de la sesión y resolveremos rápidamente el problema para usted.
Importar las bibliotecas necesarias
Primero, necesitamos importar las bibliotecas necesarias. Utilizaremos Pandas para la manipulación de datos y Matplotlib para la visualización de datos.
## Importando las bibliotecas necesarias
import pandas as pd
import matplotlib.pyplot as plt
Cargar los datos
Para este tutorial, utilizaremos datos de calidad del aire. Los datos se cargarán desde un archivo CSV en un DataFrame de Pandas.
## Cargando los datos
air_quality = pd.read_csv("data/air_quality_no2.csv", index_col=0, parse_dates=True)
air_quality.head()
Crear un gráfico de líneas
Por defecto, Pandas crea un gráfico de líneas para cada una de las columnas con datos numéricos. Esto nos da una visión general visual rápida de los datos.
## Creando un gráfico de líneas
air_quality.plot()
plt.show()
Crear un gráfico para una columna específica
Para crear un gráfico de una columna específica, podemos utilizar el método de selección en combinación con el método de trazado.
## Creando un gráfico para una columna específica
air_quality["station_paris"].plot()
plt.show()
Crear un gráfico de dispersión
Para comparar visualmente los valores de NO2 medidas en Londres y París, podemos crear un gráfico de dispersión.
## Creando un gráfico de dispersión
air_quality.plot.scatter(x="station_london", y="station_paris", alpha=0.5)
plt.show()
Crear un diagrama de caja
Un diagrama de caja nos da una buena idea de la distribución de los datos. Podemos crear un diagrama de caja para nuestros datos de calidad del aire.
## Creando un diagrama de caja
air_quality.plot.box()
plt.show()
Crear subgráficos para cada columna
Podemos crear subgráficos separados para cada una de las columnas de datos utilizando el argumento subplots.
## Creando subgráficos para cada columna
axs = air_quality.plot.area(figsize=(12, 4), subplots=True)
plt.show()
Personalizar y guardar el gráfico
Podemos personalizar aún más el gráfico utilizando las opciones de personalización de Matplotlib. También podemos guardar el gráfico en un archivo.
## Personalizando y guardando el gráfico
fig, axs = plt.subplots(figsize=(12, 4))
air_quality.plot.area(ax=axs)
axs.set_ylabel("Concentración de NO$_2$")
fig.savefig("no2_concentraciones.png")
plt.show()
Resumen
En este laboratorio, hemos aprendido cómo crear varios tipos de gráficos utilizando Pandas. También hemos aprendido cómo personalizar y guardar estos gráficos. Este conocimiento será muy útil para las tareas de análisis y visualización de datos.