Statistiques Descriptives Pandas : Guide pour Débutants

Introduction

Bienvenue dans le laboratoire sur les statistiques descriptives avec Pandas. Les statistiques descriptives sont fondamentales pour l'analyse de données, fournissant des résumés simples sur l'échantillon et les mesures. Avec Pandas, une puissante bibliothèque de manipulation de données en Python, le calcul de ces statistiques est simple et efficace.

Dans ce laboratoire, vous apprendrez à :

Calculer la moyenne (valeur moyenne) d'un ensemble de données.
Trouver la médiane (valeur centrale).
Déterminer les valeurs minimale et maximale.
Générer un résumé complet des statistiques avec une seule commande.
Compter les valeurs uniques dans une colonne catégorielle.

Vous effectuerez ces opérations sur un DataFrame d'exemple, en écrivant et en exécutant du code Python dans le WebIDE. Commençons !

Calculer la moyenne avec la méthode mean

Dans cette étape, vous apprendrez à calculer la moyenne (valeur moyenne) d'une colonne numérique dans un DataFrame Pandas. La moyenne est la somme des valeurs divisée par le nombre de valeurs, et c'est l'une des mesures de tendance centrale les plus courantes.

Pandas fournit la méthode .mean(), qui peut être appelée sur une Series (une colonne d'un DataFrame) pour calculer sa moyenne.

Tout d'abord, ouvrez le fichier main.py depuis l'explorateur de fichiers sur le côté gauche du WebIDE. Vous verrez le code initial qui crée notre DataFrame d'exemple.

Ajoutez le code suivant à la fin du fichier main.py pour calculer la moyenne de la colonne score et l'afficher.

## Calculate the mean of the 'score' column
score_mean = df['score'].mean()
print(f"Mean Score: {score_mean}")

Maintenant, exécutons le script. Ouvrez un terminal dans le WebIDE (Terminal -> New Terminal) et exécutez la commande suivante :

python3 main.py

Vous devriez voir le DataFrame original, un séparateur, et la moyenne calculée du score.

Original DataFrame:
      name  age  score grade
0    Alice   24     85     B
1      Bob   27     90     A
2  Charlie   22     78     C
3    David   32     95     A
4      Eve   29     88     B

==============================

Mean Score: 87.2

Calculer la médiane avec la méthode median

Dans cette étape, vous allez calculer la médiane d'une colonne numérique. La médiane est la valeur centrale d'un ensemble de données trié par ordre croissant. C'est souvent une meilleure mesure de tendance centrale que la moyenne lorsque les données contiennent des valeurs aberrantes (outliers).

Pandas facilite cela avec la méthode .median().

Continuez à modifier le fichier main.py. Ajoutez les lignes suivantes à la fin du script pour calculer et afficher la médiane de la colonne score.

## Calculate the median of the 'score' column
score_median = df['score'].median()
print(f"Median Score: {score_median}")

Enregistrez le fichier et exécutez à nouveau le script depuis le terminal :

python3 main.py

La sortie inclura désormais la moyenne et la médiane.

Original DataFrame:
      name  age  score grade
0    Alice   24     85     B
1      Bob   27     90     A
2  Charlie   22     78     C
3    David   32     95     A
4      Eve   29     88     B

==============================

Mean Score: 87.2
Median Score: 88.0

Trouver les valeurs min et max

Dans cette étape, vous trouverez les valeurs minimale et maximale d'une colonne. Ces statistiques sont utiles pour comprendre la plage (range) et la distribution de vos données. Pandas fournit les méthodes .min() et .max() à cet effet.

Trouvons les scores les plus bas et les plus élevés de notre jeu de données. Ajoutez le code suivant à la fin de votre script main.py.

## Find the minimum and maximum scores
score_min = df['score'].min()
score_max = df['score'].max()
print(f"Minimum Score: {score_min}")
print(f"Maximum Score: {score_max}")

Enregistrez le fichier et exécutez-le depuis le terminal :

python3 main.py

Votre sortie affichera désormais la moyenne, la médiane, le minimum et le maximum des scores.

Original DataFrame:
      name  age  score grade
0    Alice   24     85     B
1      Bob   27     90     A
2  Charlie   22     78     C
3    David   32     95     A
4      Eve   29     88     B

==============================

Mean Score: 87.2
Median Score: 88.0
Minimum Score: 78
Maximum Score: 95

Générer des statistiques récapitulatives avec describe

Dans cette étape, vous utiliserez la puissante méthode .describe(). Cette méthode unique génère un résumé complet des statistiques descriptives pour toutes les colonnes numériques de votre DataFrame, y compris le compte (count), la moyenne (mean), l'écart type (standard deviation), le minimum (min), le maximum (max) et les valeurs des quartiles (quartile values).

C'est un énorme gain de temps pour obtenir un aperçu rapide de vos données. Ajoutez le code suivant à la fin de main.py.

## Generate a summary of descriptive statistics
summary_stats = df.describe()
print("Descriptive Statistics Summary:")
print(summary_stats)

Enregistrez le fichier et exécutez le script :

python3 main.py

Vous verrez un tableau bien formaté contenant les statistiques récapitulatives pour les colonnes age et score.

... (previous output) ...

Descriptive Statistics Summary:
             age      score
count   5.000000   5.000000
mean   26.800000  87.200000
std     4.024922   6.379655
min    22.000000  78.000000
25%    24.000000  85.000000
50%    27.000000  88.000000
75%    29.000000  90.000000
max    32.000000  95.000000

Compter les valeurs uniques avec value_counts

Dans cette étape, vous apprendrez à compter les occurrences des valeurs uniques dans une colonne, ce qui est particulièrement utile pour les données catégorielles. La méthode .value_counts() renvoie une Series contenant les décomptes des valeurs uniques.

Comptons combien d'étudiants ont reçu chaque note. Ajoutez le code suivant à la fin de main.py.

## Count the occurrences of each grade
grade_counts = df['grade'].value_counts()
print("Grade Counts:")
print(grade_counts)

Enregistrez le fichier et exécutez le script pour la dernière fois.

python3 main.py

La sortie finale inclura les décomptes pour chaque note unique.

... (previous output) ...

Grade Counts:
grade
B    2
A    2
C    1
Name: count, dtype: int64

Cela montre que les notes 'A' et 'B' apparaissent chacune deux fois, et la note 'C' apparaît une fois.

Résumé

Félicitations pour avoir terminé le laboratoire ! Vous avez appris avec succès à effectuer des analyses statistiques descriptives fondamentales à l'aide de la bibliothèque Pandas.

Dans ce laboratoire, vous avez pratiqué l'utilisation de plusieurs méthodes clés de Pandas :

.mean() pour calculer la moyenne.
.median() pour trouver la valeur centrale.
.min() et .max() pour déterminer la plage des données.
.describe() pour obtenir un résumé statistique rapide et complet.
.value_counts() pour compter les valeurs uniques dans une colonne catégorielle.

Ces fonctions sont des outils essentiels pour tout analyste ou scientifique de données et constituent la base de l'analyse exploratoire des données (EDA). Continuez à pratiquer ces compétences pour devenir plus compétent dans votre parcours d'analyse de données.