Méthode describe() pour DataFrame Pandas

PythonPythonBeginner
Pratiquer maintenant

💡 Ce tutoriel est traduit par l'IA à partir de la version anglaise. Pour voir la version originale, vous pouvez cliquer ici

Introduction

Dans ce laboratoire, vous allez apprendre à utiliser la méthode describe() de la bibliothèque Pandas pour générer des statistiques descriptives pour un DataFrame. La méthode describe() calcule diverses mesures statistiques telles que le comptage, la moyenne, l'écart-type, le minimum, le maximum et les percentiles pour les colonnes numériques. Elle fournit également des statistiques résumées pour les colonnes avec des types de données objets.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Notebook pour accéder à Jupyter Notebook pour la pratique.

Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.

Importez les bibliothèques requises et créez un DataFrame

Tout d'abord, importez la bibliothèque Pandas à l'aide du mot clé import. Créez un DataFrame à l'aide de la méthode pd.DataFrame() avec des données d'échantillonnage.

import pandas as pd

## Créez un DataFrame
df = pd.DataFrame([['Abhishek', 100, 'Science', 90],
                   ['Anurag', 101, 'Science', 85],
                   ['Chetan', 103, 'Maths', 75]],
                  columns=['Name', 'Roll No', 'Subject', 'Marks'])

Décrivez le DataFrame à l'aide de la méthode describe()

Pour décrire le DataFrame, utilisez la méthode describe() sur l'objet DataFrame.

## Décrivez le DataFrame
description = df.describe()

## Affichez la description
print(description)

Décrivez toutes les colonnes du DataFrame

Pour décrire toutes les colonnes du DataFrame, y compris les types de données numériques et objets, utilisez le paramètre include='all' dans la méthode describe().

## Décrivez toutes les colonnes du DataFrame
description_all_columns = df.describe(include='all')

## Affichez la description de toutes les colonnes
print(description_all_columns)

Décrivez une colonne spécifique du DataFrame

Pour décrire une colonne spécifique du DataFrame, accédez à cette colonne en tant qu'attribut et utilisez la méthode describe().

## Décrivez une colonne spécifique du DataFrame
marks_description = df.Marks.describe()

## Affichez la description de la colonne 'Marks'
print(marks_description)

Exclure les colonnes numériques de la description

Pour exclure les colonnes numériques de la description, utilisez le paramètre exclude=np.number dans la méthode describe().

import numpy as np

## Exclure les colonnes numériques de la description
description_exclude_numeric = df.describe(exclude=np.number)

## Affichez la description excluant les colonnes numériques
print(description_exclude_numeric)

Décrivez un DataFrame avec des valeurs None

Pour décrire un DataFrame qui contient des valeurs None, la méthode describe() les traitera de manière appropriée.

## Créez un DataFrame avec des valeurs None
df_with_none = pd.DataFrame([['Abhishek', 101, 'Science', None],
                             ['Anurag', None, 'Science', 85],
                             ['Chetan', None, 'Maths', 75]],
                            columns=['Name', 'Roll No', 'Subject', 'Marks'])

## Décrivez le DataFrame avec des valeurs None
description_with_none = df_with_none.describe()

## Affichez la description du DataFrame avec des valeurs None
print(description_with_none)

Sommaire

Félicitations ! Dans ce laboratoire, vous avez appris à utiliser la méthode describe() dans Pandas pour générer des statistiques descriptives pour un DataFrame. Vous pouvez utiliser cette méthode pour obtenir des informations précieuses sur la tendance centrale, la dispersion et la forme de la distribution d'un ensemble de données. La méthode describe() est un outil puissant pour l'analyse et l'exploration de données. Bonne programmation !