Introduction
Dans ce laboratoire, nous allons explorer la méthode nlargest() dans le DataFrame Pandas. Cette méthode nous permet de récupérer les N premières lignes d'un DataFrame sur la base d'une colonne ou de plusieurs colonnes spécifiées, triées par ordre décroissant.
Conseils sur la machine virtuelle
Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Carnet de notes pour accéder au carnet Jupyter Notebook pour pratiquer.
Parfois, vous devrez peut-être attendre quelques secondes pour que le carnet Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations du carnet Jupyter Notebook.
Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.
Créer un DataFrame
Commenceons par créer un DataFrame d'essai avec lequel travailler. Nous allons utiliser le code suivant pour créer un DataFrame avec les colonnes Nom, Âge, Taille et Poids :
import pandas as pd
df = pd.DataFrame({'Name':['Chetan','yashas','yuvraj','Pooja','Sindu','Renuka'],
'Age':[20,25,30,18,25,20],
'Height':[155,160,175,145,155,165],
'Weight':[75,60,75,45,55,65]})
Ce code crée un DataFrame avec les colonnes et les données spécifiées.
Utiliser la méthode nlargest()
La méthode nlargest() nous permet de récupérer les N premières lignes sur la base d'une colonne spécifiée. La syntaxe pour utiliser cette méthode est la suivante :
df.nlargest(n, columns)
nest un entier qui spécifie le nombre de lignes à retourner.columnsest soit une étiquette soit une liste d'étiquettes qui représentent les colonnes par lesquelles trier.
Récupérer les N premières lignes
Utilisons la méthode nlargest() pour récupérer les 2 premières lignes sur la base de la colonne 'Height'. Nous utiliserons le code suivant :
top_n_rows = df.nlargest(2, 'Height')
print(top_n_rows)
Ce code renverra un nouveau DataFrame composé des 2 premières lignes triées par la colonne 'Height'.
Spécifier une colonne différente
Nous pouvons également utiliser la méthode nlargest() pour récupérer les N premières lignes sur la base d'une colonne différente. Récupérons les 3 premières lignes sur la base de la colonne 'Age' en utilisant le code suivant :
top_n_rows = df.nlargest(3, 'Age')
print(top_n_rows)
Ce code renverra un nouveau DataFrame composé des 3 premières lignes triées par la colonne 'Age'.
Spécifier le paramètre Keep
Nous pouvons spécifier le paramètre keep pour privilégier la première ou la dernière occurrence(s) de lignes avec des valeurs dupliquées. Par défaut, keep est défini sur 'first'. Spécifions keep='last' lors de la récupération des 2 premières lignes sur la base de la colonne 'Height' :
top_n_rows = df.nlargest(2, 'Height', keep='last')
print(top_n_rows)
Ce code renverra un nouveau DataFrame composé des 2 dernières lignes avec les plus grandes valeurs dans la colonne 'Height'.
Résumé
Dans ce laboratoire, nous avons appris à utiliser la méthode nlargest() dans le DataFrame Pandas. Nous pouvons utiliser cette méthode pour récupérer les N premières lignes sur la base d'une colonne ou de colonnes spécifiées, triées par ordre décroissant. Nous pouvons également spécifier le paramètre keep pour privilégier la première ou la dernière occurrence(s) de lignes avec des valeurs dupliquées. Cette méthode est utile pour trouver rapidement les plus grandes ou les plus hautes valeurs dans un DataFrame selon des critères spécifiques.