Introduction
Dans ce laboratoire, nous allons travailler avec des données de qualité de l'air pour explorer la manière de combiner plusieurs tables à l'aide de la bibliothèque Pandas de Python. Nous utiliserons les fonctions concat et merge pour effectuer ces opérations. Ce laboratoire vous aidera à comprendre comment concaténer et fusionner efficacement des DataFrames.
Conseils sur la machine virtuelle
Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Notebook pour accéder à Jupyter Notebook pour la pratique.
Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.
Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.
Importation des bibliothèques requises
Notre première étape consiste à importer les bibliothèques dont nous aurons besoin. Pour ce laboratoire, nous utiliserons la bibliothèque pandas.
## Import the required library
import pandas as pd
Charger les ensembles de données
Nous allons charger deux ensembles de données liés à la qualité de l'air. L'un contient des données sur les nitrates et l'autre contient des données sur les matières particulaires.
## Load the Nitrate data
air_quality_no2 = pd.read_csv("data/air_quality_no2_long.csv", parse_dates=True)
air_quality_no2 = air_quality_no2[["date.utc", "location", "parameter", "value"]]
## Load the Particulate matter data
air_quality_pm25 = pd.read_csv("data/air_quality_pm25_long.csv", parse_dates=True)
air_quality_pm25 = air_quality_pm25[["date.utc", "location", "parameter", "value"]]
Concaténer les ensembles de données
Ensuite, nous allons combiner les mesures de nitrates et de matières particulaires dans un seul tableau à l'aide de la fonction concat.
## Concatenate the two dataframes
air_quality = pd.concat([air_quality_pm25, air_quality_no2], axis=0)
Fusionner des tables en utilisant un identifiant commun
Nous allons ensuite ajouter les coordonnées des stations au tableau de mesures à l'aide de la fonction merge. Nous effectuerons un jointure gauche sur la colonne location.
## Load the stations coordinates data
stations_coord = pd.read_csv("data/air_quality_stations.csv")
## Merge the air_quality and stations_coord dataframes
air_quality = pd.merge(air_quality, stations_coord, how="left", on="location")
Ajouter la description et le nom complet des paramètres
Enfin, nous ajouterons la description et le nom complet des paramètres au tableau de mesures. Nous effectuons une jointure gauche sur les colonnes parameter et id.
## Load the air quality parameters data
air_quality_parameters = pd.read_csv("data/air_quality_parameters.csv")
## Merge the air_quality and air_quality_parameters dataframes
air_quality = pd.merge(air_quality, air_quality_parameters, how='left', left_on='parameter', right_on='id')
Sommaire
Dans ce laboratoire, nous avons appris à combiner plusieurs tables dans pandas. Nous avons utilisé la fonction concat pour concaténer des tables et la fonction merge pour fusionner des tables en utilisant un identifiant commun. Ces opérations sont cruciales lorsqu'il s'agit de travailler avec plusieurs sources de données qui doivent être combinées en un seul ensemble de données cohérent pour l'analyse.