Combinando tablas de datos en Pandas

PythonPythonBeginner
Practicar Ahora

This tutorial is from open-source community. Access the source code

💡 Este tutorial está traducido por IA desde la versión en inglés. Para ver la versión original, puedes hacer clic aquí

Introducción

En este laboratorio, trabajaremos con datos de calidad del aire para explorar cómo combinar múltiples tablas utilizando la biblioteca Pandas de Python. Utilizaremos las funciones concat y merge para realizar estas operaciones. Este laboratorio te ayudará a entender cómo concatenar y fusionar marcos de datos de manera efectiva.

Consejos sobre la VM

Una vez que se haya completado la inicialización de la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.

A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de las operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.

Si experimenta problemas durante el aprendizaje, no dude en preguntar a Labby. Deje sus comentarios después de la sesión y lo resolveremos rápidamente para usted.

Importar las bibliotecas necesarias

El primer paso es importar las bibliotecas que necesitaremos. Para este laboratorio, usaremos la biblioteca pandas.

## Import the required library
import pandas as pd

Cargar los conjuntos de datos

Cargaremos dos conjuntos de datos relacionados con la calidad del aire. Uno contiene datos de nitrato y el otro contiene datos de materia particulada.

## Load the Nitrate data
air_quality_no2 = pd.read_csv("data/air_quality_no2_long.csv", parse_dates=True)
air_quality_no2 = air_quality_no2[["date.utc", "location", "parameter", "value"]]

## Load the Particulate matter data
air_quality_pm25 = pd.read_csv("data/air_quality_pm25_long.csv", parse_dates=True)
air_quality_pm25 = air_quality_pm25[["date.utc", "location", "parameter", "value"]]

Concatenando los conjuntos de datos

A continuación, combinaremos las mediciones de nitrato y materia particulada en una sola tabla utilizando la función concat.

## Concatenate the two dataframes
air_quality = pd.concat([air_quality_pm25, air_quality_no2], axis=0)

Combinar tablas utilizando un identificador común

Luego, agregaremos las coordenadas de las estaciones a la tabla de mediciones utilizando la función merge. Realizaremos un join izquierdo en la columna location.

## Load the stations coordinates data
stations_coord = pd.read_csv("data/air_quality_stations.csv")

## Merge the air_quality and stations_coord dataframes
air_quality = pd.merge(air_quality, stations_coord, how="left", on="location")

Agregar la descripción y nombre completos de los parámetros

Por último, agregaremos la descripción y nombre completos de los parámetros a la tabla de mediciones. Realizamos un join izquierdo en las columnas parameter e id.

## Load the air quality parameters data
air_quality_parameters = pd.read_csv("data/air_quality_parameters.csv")

## Merge the air_quality and air_quality_parameters dataframes
air_quality = pd.merge(air_quality, air_quality_parameters, how='left', left_on='parameter', right_on='id')

Resumen

En este laboratorio, aprendimos cómo combinar múltiples tablas en pandas. Utilizamos la función concat para concatenar tablas y la función merge para unir tablas utilizando un identificador común. Estas operaciones son cruciales cuando se trabaja con múltiples fuentes de datos que deben combinarse en un solo conjunto de datos coherente para su análisis.