Transformer des données avec Pandas : Techniques et exemples

Introduction

Dans ce laboratoire, nous allons explorer la manière de restructurer des données dans pandas en utilisant diverses fonctions telles que sort_values, pivot, pivot_table et melt. Nous travaillerons avec les jeux de données Titanic et Air Quality pour démontrer les techniques de restructuration.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Notebook pour accéder à Jupyter Notebook pour la pratique.

Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.

Importation des bibliothèques et chargement des données

Tout d'abord, importons les bibliothèques requises et chargeons les jeux de données.

import pandas as pd

## Charger le jeu de données Titanic
titanic = pd.read_csv("data/titanic.csv")

## Charger le jeu de données Air Quality
air_quality = pd.read_csv("data/air_quality_long.csv", index_col="date.utc", parse_dates=True)

Trier les lignes d'un tableau

Triez le jeu de données Titanic selon l'âge des passagers, puis par classe de cabine et âge dans l'ordre décroissant.

## Trier par Age
titanic.sort_values(by="Age").head()

## Trier par Pclass et Age dans l'ordre décroissant
titanic.sort_values(by=['Pclass', 'Age'], ascending=False).head()

Convertir un tableau de format long en format large

Nous allons maintenant convertir les données de qualité de l'air au format long en format large en utilisant la fonction pivot.

## Filtrer pour ne conserver que les données de no2
no2 = air_quality[air_quality["parameter"] == "no2"]

## Utiliser 2 mesures (head) pour chaque emplacement (groupby)
no2_subset = no2.sort_index().groupby(["location"]).head(2)

## Transformer les données en tableau pivoté
no2_subset.pivot(columns="location", values="value")

Créer un tableau pivot

Créez un tableau pivot pour trouver les concentrations moyennes de NO2 et PM25 dans chaque station.

air_quality.pivot_table(
    values="value", index="location", columns="parameter", aggfunc="mean"
)

Convertir un tableau de format large en format long

Maintenant, convertissons les données de NO2 au format large en format long en utilisant la fonction melt.

## Réinitialiser l'index pour no2_pivoted
no2_pivoted = no2.pivot(columns="location", values="value").reset_index()

## Fusionner les données
no_2 = no2_pivoted.melt(id_vars="date.utc")

Sommaire

Dans ce laboratoire, nous avons appris à restructurer des données dans pandas à l'aide de diverses fonctions telles que sort_values, pivot, pivot_table et melt. Nous avons appliqué ces techniques sur les jeux de données Titanic et Qualité de l'air pour trier, transformer en table pivot et fusionner les données. Ces techniques de restructuration sont essentielles lorsqu'on travaille avec des données dans pandas et peuvent nous aider à analyser et visualiser efficacement les données.