Combinando tablas de datos en Pandas

Beginner

This tutorial is from open-source community. Access the source code

Introducción

En este laboratorio, trabajaremos con datos de calidad del aire para explorar cómo combinar múltiples tablas utilizando la biblioteca Pandas de Python. Utilizaremos las funciones concat y merge para realizar estas operaciones. Este laboratorio te ayudará a entender cómo concatenar y fusionar marcos de datos de manera efectiva.

Consejos sobre la VM

Una vez que se haya completado la inicialización de la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.

A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de las operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.

Si experimenta problemas durante el aprendizaje, no dude en preguntar a Labby. Deje sus comentarios después de la sesión y lo resolveremos rápidamente para usted.

Este es un Guided Lab, que proporciona instrucciones paso a paso para ayudarte a aprender y practicar. Sigue las instrucciones cuidadosamente para completar cada paso y obtener experiencia práctica. Los datos históricos muestran que este es un laboratorio de nivel principiante con una tasa de finalización del 95%. Ha recibido una tasa de reseñas positivas del 100% por parte de los estudiantes.

Importar las bibliotecas necesarias

El primer paso es importar las bibliotecas que necesitaremos. Para este laboratorio, usaremos la biblioteca pandas.

## Import the required library
import pandas as pd

Cargar los conjuntos de datos

Cargaremos dos conjuntos de datos relacionados con la calidad del aire. Uno contiene datos de nitrato y el otro contiene datos de materia particulada.

## Load the Nitrate data
air_quality_no2 = pd.read_csv("data/air_quality_no2_long.csv", parse_dates=True)
air_quality_no2 = air_quality_no2[["date.utc", "location", "parameter", "value"]]

## Load the Particulate matter data
air_quality_pm25 = pd.read_csv("data/air_quality_pm25_long.csv", parse_dates=True)
air_quality_pm25 = air_quality_pm25[["date.utc", "location", "parameter", "value"]]

Concatenando los conjuntos de datos

A continuación, combinaremos las mediciones de nitrato y materia particulada en una sola tabla utilizando la función concat.

## Concatenate the two dataframes
air_quality = pd.concat([air_quality_pm25, air_quality_no2], axis=0)

Combinar tablas utilizando un identificador común

Luego, agregaremos las coordenadas de las estaciones a la tabla de mediciones utilizando la función merge. Realizaremos un join izquierdo en la columna location.

## Load the stations coordinates data
stations_coord = pd.read_csv("data/air_quality_stations.csv")

## Merge the air_quality and stations_coord dataframes
air_quality = pd.merge(air_quality, stations_coord, how="left", on="location")

Agregar la descripción y nombre completos de los parámetros

Por último, agregaremos la descripción y nombre completos de los parámetros a la tabla de mediciones. Realizamos un join izquierdo en las columnas parameter e id.

## Load the air quality parameters data
air_quality_parameters = pd.read_csv("data/air_quality_parameters.csv")

## Merge the air_quality and air_quality_parameters dataframes
air_quality = pd.merge(air_quality, air_quality_parameters, how='left', left_on='parameter', right_on='id')

Resumen

En este laboratorio, aprendimos cómo combinar múltiples tablas en pandas. Utilizamos la función concat para concatenar tablas y la función merge para unir tablas utilizando un identificador común. Estas operaciones son cruciales cuando se trabaja con múltiples fuentes de datos que deben combinarse en un solo conjunto de datos coherente para su análisis.