Introduction
Dans ce laboratoire, vous allez apprendre à utiliser la méthode describe() de la bibliothèque Pandas pour générer des statistiques descriptives pour un DataFrame. La méthode describe() calcule diverses mesures statistiques telles que le comptage, la moyenne, l'écart-type, le minimum, le maximum et les percentiles pour les colonnes numériques. Elle fournit également des statistiques résumées pour les colonnes avec des types de données objets.
Conseils sur la machine virtuelle
Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Notebook pour accéder à Jupyter Notebook pour la pratique.
Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.
Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.
Importer les bibliothèques requises et créer un DataFrame
Tout d'abord, importez la bibliothèque Pandas à l'aide du mot clé import. Créez un DataFrame à l'aide de la méthode pd.DataFrame() avec des données d'échantillonnage.
import pandas as pd
## Créez un DataFrame
df = pd.DataFrame([['Abhishek', 100, 'Science', 90],
['Anurag', 101, 'Science', 85],
['Chetan', 103, 'Maths', 75]],
columns=['Name', 'Roll No', 'Subject', 'Marks'])
Décris le DataFrame à l'aide de la méthode describe()
Pour décrire le DataFrame, utilisez la méthode describe() sur l'objet DataFrame.
## Décrivez le DataFrame
description = df.describe()
## Affichez la description
print(description)
Décris toutes les colonnes du DataFrame
Pour décrire toutes les colonnes du DataFrame, y compris les types de données numériques et objets, utilisez le paramètre include='all' dans la méthode describe().
## Décrivez toutes les colonnes du DataFrame
description_all_columns = df.describe(include='all')
## Affichez la description de toutes les colonnes
print(description_all_columns)
Décris une colonne spécifique du DataFrame
Pour décrire une colonne spécifique du DataFrame, accédez à cette colonne en tant qu'attribut et utilisez la méthode describe().
## Décrivez une colonne spécifique du DataFrame
marks_description = df.Marks.describe()
## Affichez la description de la colonne 'Marks'
print(marks_description)
Exclure les colonnes numériques de la description
Pour exclure les colonnes numériques de la description, utilisez le paramètre exclude=np.number dans la méthode describe().
import numpy as np
## Exclure les colonnes numériques de la description
description_exclude_numeric = df.describe(exclude=np.number)
## Affichez la description excluant les colonnes numériques
print(description_exclude_numeric)
Décris un DataFrame avec des valeurs None
Pour décrire un DataFrame qui contient des valeurs None, la méthode describe() les traitera de manière appropriée.
## Créez un DataFrame avec des valeurs None
df_with_none = pd.DataFrame([['Abhishek', 101, 'Science', None],
['Anurag', None, 'Science', 85],
['Chetan', None, 'Maths', 75]],
columns=['Name', 'Roll No', 'Subject', 'Marks'])
## Décrivez le DataFrame avec des valeurs None
description_with_none = df_with_none.describe()
## Affichez la description du DataFrame avec des valeurs None
print(description_with_none)
Résumé
Félicitations ! Dans ce laboratoire, vous avez appris à utiliser la méthode describe() dans Pandas pour générer des statistiques descriptives pour un DataFrame. Vous pouvez utiliser cette méthode pour obtenir des informations précieuses sur la tendance centrale, la dispersion et la forme de la distribution d'un ensemble de données. La méthode describe() est un outil puissant pour l'analyse et l'exploration de données. Bonne programmation !