Python Pandas | Analyse de données de qualité de l'air | Concaténer et fusionner des trames de données

Introduction

Dans ce laboratoire, nous allons travailler avec des données de qualité de l'air pour explorer la manière de combiner plusieurs tables à l'aide de la bibliothèque Pandas de Python. Nous utiliserons les fonctions concat et merge pour effectuer ces opérations. Ce laboratoire vous aidera à comprendre comment concaténer et fusionner efficacement des DataFrames.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Notebook pour accéder à Jupyter Notebook pour la pratique.

Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.

Ceci est un Guided Lab, qui fournit des instructions étape par étape pour vous aider à apprendre et à pratiquer. Suivez attentivement les instructions pour compléter chaque étape et acquérir une expérience pratique. Les données historiques montrent que c'est un laboratoire de niveau débutant avec un taux de réussite de 95%. Il a reçu un taux d'avis positifs de 100% de la part des apprenants.

Importation des bibliothèques requises

Notre première étape consiste à importer les bibliothèques dont nous aurons besoin. Pour ce laboratoire, nous utiliserons la bibliothèque pandas.

## Import the required library
import pandas as pd

Charger les ensembles de données

Nous allons charger deux ensembles de données liés à la qualité de l'air. L'un contient des données sur les nitrates et l'autre contient des données sur les matières particulaires.

## Load the Nitrate data
air_quality_no2 = pd.read_csv("data/air_quality_no2_long.csv", parse_dates=True)
air_quality_no2 = air_quality_no2[["date.utc", "location", "parameter", "value"]]

## Load the Particulate matter data
air_quality_pm25 = pd.read_csv("data/air_quality_pm25_long.csv", parse_dates=True)
air_quality_pm25 = air_quality_pm25[["date.utc", "location", "parameter", "value"]]

Concaténer les ensembles de données

Ensuite, nous allons combiner les mesures de nitrates et de matières particulaires dans un seul tableau à l'aide de la fonction concat.

## Concatenate the two dataframes
air_quality = pd.concat([air_quality_pm25, air_quality_no2], axis=0)

Fusionner des tables en utilisant un identifiant commun

Nous allons ensuite ajouter les coordonnées des stations au tableau de mesures à l'aide de la fonction merge. Nous effectuerons un jointure gauche sur la colonne location.

## Load the stations coordinates data
stations_coord = pd.read_csv("data/air_quality_stations.csv")

## Merge the air_quality and stations_coord dataframes
air_quality = pd.merge(air_quality, stations_coord, how="left", on="location")

Ajouter la description et le nom complet des paramètres

Enfin, nous ajouterons la description et le nom complet des paramètres au tableau de mesures. Nous effectuons une jointure gauche sur les colonnes parameter et id.

## Load the air quality parameters data
air_quality_parameters = pd.read_csv("data/air_quality_parameters.csv")

## Merge the air_quality and air_quality_parameters dataframes
air_quality = pd.merge(air_quality, air_quality_parameters, how='left', left_on='parameter', right_on='id')

Sommaire

Dans ce laboratoire, nous avons appris à combiner plusieurs tables dans pandas. Nous avons utilisé la fonction concat pour concaténer des tables et la fonction merge pour fusionner des tables en utilisant un identifiant commun. Ces opérations sont cruciales lorsqu'il s'agit de travailler avec plusieurs sources de données qui doivent être combinées en un seul ensemble de données cohérent pour l'analyse.

Combiner des tables de données dans Pandas