Créer des diagrammes en boîte personnalisés en Python

Beginner

This tutorial is from open-source community. Access the source code

Introduction

Les diagrammes en boîte sont un type de graphique utilisé pour afficher la distribution des données sur la base d'un résumé à cinq chiffres ("minimum", premier quartile (Q1), médiane, troisième quartile (Q3) et "maximum"). Ils sont couramment utilisés dans l'analyse de données pour identifier et visualiser les valeurs aberrantes, ainsi que pour comparer la distribution de différents groupes de données. Dans ce laboratoire, vous allez apprendre à créer et personnaliser des diagrammes en boîte en Python à l'aide de la bibliothèque Matplotlib.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Carnet de notes pour accéder au carnet Jupyter Notebook pour pratiquer.

Parfois, vous devrez peut-être attendre quelques secondes pour que le carnet Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations du carnet Jupyter Notebook.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.

Importez les bibliothèques nécessaires

Avant de commencer à créer des diagrammes en boîte, nous devons importer les bibliothèques nécessaires, y compris NumPy et Matplotlib :

import matplotlib.pyplot as plt
import numpy as np

Générez les données

Ensuite, nous allons générer quelques données d'échantillonnage pour les utiliser dans nos diagrammes en boîte. Pour ce tutoriel, nous utiliserons les données suivantes :

spread = np.random.rand(50) * 100
center = np.ones(25) * 50
flier_high = np.random.rand(10) * 100 + 100
flier_low = np.random.rand(10) * -100
data = np.concatenate((spread, center, flier_high, flier_low))

Créez un diagramme en boîte de base

Nous pouvons créer un diagramme en boîte de base à l'aide de la fonction boxplot() de Matplotlib. La fonction boxplot() prend les données en tant que premier argument et d'autres paramètres optionnels pour personnaliser le tracé. Voici le code pour créer un diagramme en boîte de base :

plt.boxplot(data)
plt.show()

Personnalisez le diagramme en boîte

Nous pouvons personnaliser le diagramme en boîte en changeant l'apparence de la boîte, des barres d'agrégation et des valeurs aberrantes. Nous pouvons également créer plusieurs diagrammes en boîte sur la même figure pour comparer différents groupes de données. Voici quelques exemples de personnalisation du diagramme en boîte :

## Créez un diagramme en boîte encadré
plt.boxplot(data, notch=True)
plt.show()

## Changez les symboles des points aberrants en diamants verts
plt.boxplot(data, flierprops=dict(marker='D', markerfacecolor='g', markersize=8))
plt.show()

## Créez des diagrammes en boîte horizontaux
plt.boxplot(data, vert=False)
plt.show()

## Créez plusieurs diagrammes en boîte sur une même figure
data1 = np.random.normal(0, 1, 50)
data2 = np.random.normal(1, 1, 50)
data3 = np.random.normal(2, 1, 50)

plt.boxplot([data1, data2, data3])
plt.show()

Ajoutez des étiquettes et des titres

Enfin, nous pouvons ajouter des étiquettes et des titres à notre diagramme en boîte pour le rendre plus informatif. Nous pouvons ajouter des étiquettes aux axes x et y, ainsi qu'un titre au tracé. Nous pouvons également changer la taille et le style de police des étiquettes et du titre. Voici un exemple de comment ajouter des étiquettes et des titres :

plt.boxplot([data1, data2, data3])
plt.xlabel('Group')
plt.ylabel('Value')
plt.title('Comparison of Three Groups')
plt.xticks([1, 2, 3], ['Group 1', 'Group 2', 'Group 3'])
plt.show()

Sommaire

Dans ce laboratoire, vous avez appris à créer et personnaliser des diagrammes en boîte en Python à l'aide de la bibliothèque Matplotlib. Vous avez appris à générer des données d'échantillonnage, à créer un diagramme en boîte de base, à personnaliser l'apparence du diagramme en boîte et à ajouter des étiquettes et des titres au tracé. Les diagrammes en boîte sont un outil puissant pour visualiser et comparer la distribution des données, et savoir les créer et les personnaliser est une compétence importante pour les analystes et les scientifiques de données.