Introduction
Dans ce laboratoire, nous allons apprendre à créer des graphiques à l'aide de Pandas, une puissante bibliothèque de manipulation de données en Python. Nous utiliserons des données réelles de qualité de l'air pour des illustrations pratiques. À la fin de ce laboratoire, vous devriez être capable d'utiliser Pandas pour créer des graphiques en ligne, des graphiques de dispersion, des diagrammes en boîte et de personnaliser vos graphiques.
Conseils sur la machine virtuelle
Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Carnet de notes pour accéder au carnet Jupyter Notebook pour pratiquer.
Parfois, vous devrez peut-être attendre quelques secondes pour que le carnet Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations du carnet Jupyter Notebook.
Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez des commentaires après la session, et nous résoudrons rapidement le problème pour vous.
Importation des bibliothèques nécessaires
Tout d'abord, nous devons importer les bibliothèques nécessaires. Nous utiliserons Pandas pour la manipulation des données et Matplotlib pour la visualisation des données.
## Importing necessary libraries
import pandas as pd
import matplotlib.pyplot as plt
Charger les données
Nous utiliserons des données de qualité de l'air pour ce tutoriel. Les données seront chargées à partir d'un fichier CSV dans un DataFrame Pandas.
## Loading the data
air_quality = pd.read_csv("data/air_quality_no2.csv", index_col=0, parse_dates=True)
air_quality.head()
Créer un graphique en ligne
Par défaut, Pandas crée un graphique en ligne pour chaque colonne contenant des données numériques. Cela nous donne une vue d'ensemble visuelle rapide des données.
## Creating a line plot
air_quality.plot()
plt.show()
Créer un graphique pour une colonne spécifique
Pour tracer une colonne spécifique, nous pouvons utiliser la méthode de sélection en combinaison avec la méthode plot.
## Creating a plot for a specific column
air_quality["station_paris"].plot()
plt.show()
Créer un graphique en nuage de points
Pour comparer visuellement les valeurs de NO2 mesurées à Londres et à Paris, nous pouvons créer un graphique en nuage de points.
## Creating a scatter plot
air_quality.plot.scatter(x="station_london", y="station_paris", alpha=0.5)
plt.show()
Créer un diagramme en boîte
Un diagramme en boîte nous donne une bonne vue d'ensemble de la distribution des données. Nous pouvons créer un diagramme en boîte pour nos données de qualité de l'air.
## Creating a box plot
air_quality.plot.box()
plt.show()
Créer des sous-graphiques pour chaque colonne
Nous pouvons créer des sous-graphiques distincts pour chaque colonne de données en utilisant l'argument subplots.
## Creating subplots for each column
axs = air_quality.plot.area(figsize=(12, 4), subplots=True)
plt.show()
Personnaliser et enregistrer le graphique
Nous pouvons personnaliser davantage le graphique en utilisant les options de personnalisation de Matplotlib. Nous pouvons également enregistrer le graphique dans un fichier.
## Customizing and saving the plot
fig, axs = plt.subplots(figsize=(12, 4))
air_quality.plot.area(ax=axs)
axs.set_ylabel("NO$_2$ concentration")
fig.savefig("no2_concentrations.png")
plt.show()
Sommaire
Dans ce laboratoire, nous avons appris à créer différents types de graphiques à l'aide de Pandas. Nous avons également appris à personnaliser et enregistrer ces graphiques. Cette connaissance sera très utile pour les tâches d'analyse et de visualisation de données.