Méthode nlargest() du DataFrame Pandas | Analyse de données

Introduction

Dans ce laboratoire, nous allons explorer la méthode nlargest() dans le DataFrame Pandas. Cette méthode nous permet de récupérer les N premières lignes d'un DataFrame sur la base d'une colonne ou de plusieurs colonnes spécifiées, triées par ordre décroissant.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Carnet de notes pour accéder au carnet Jupyter Notebook pour pratiquer.

Parfois, vous devrez peut-être attendre quelques secondes pour que le carnet Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations du carnet Jupyter Notebook.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.

Créer un DataFrame

Commenceons par créer un DataFrame d'essai avec lequel travailler. Nous allons utiliser le code suivant pour créer un DataFrame avec les colonnes Nom, Âge, Taille et Poids :

import pandas as pd

df = pd.DataFrame({'Name':['Chetan','yashas','yuvraj','Pooja','Sindu','Renuka'],
                   'Age':[20,25,30,18,25,20],
                   'Height':[155,160,175,145,155,165],
                   'Weight':[75,60,75,45,55,65]})

Ce code crée un DataFrame avec les colonnes et les données spécifiées.

Utiliser la méthode nlargest()

La méthode nlargest() nous permet de récupérer les N premières lignes sur la base d'une colonne spécifiée. La syntaxe pour utiliser cette méthode est la suivante :

df.nlargest(n, columns)

n est un entier qui spécifie le nombre de lignes à retourner.
columns est soit une étiquette soit une liste d'étiquettes qui représentent les colonnes par lesquelles trier.

Récupérer les N premières lignes

Utilisons la méthode nlargest() pour récupérer les 2 premières lignes sur la base de la colonne 'Height'. Nous utiliserons le code suivant :

top_n_rows = df.nlargest(2, 'Height')
print(top_n_rows)

Ce code renverra un nouveau DataFrame composé des 2 premières lignes triées par la colonne 'Height'.

Spécifier une colonne différente

Nous pouvons également utiliser la méthode nlargest() pour récupérer les N premières lignes sur la base d'une colonne différente. Récupérons les 3 premières lignes sur la base de la colonne 'Age' en utilisant le code suivant :

top_n_rows = df.nlargest(3, 'Age')
print(top_n_rows)

Ce code renverra un nouveau DataFrame composé des 3 premières lignes triées par la colonne 'Age'.

Spécifier le paramètre Keep

Nous pouvons spécifier le paramètre keep pour privilégier la première ou la dernière occurrence(s) de lignes avec des valeurs dupliquées. Par défaut, keep est défini sur 'first'. Spécifions keep='last' lors de la récupération des 2 premières lignes sur la base de la colonne 'Height' :

top_n_rows = df.nlargest(2, 'Height', keep='last')
print(top_n_rows)

Ce code renverra un nouveau DataFrame composé des 2 dernières lignes avec les plus grandes valeurs dans la colonne 'Height'.

Résumé

Dans ce laboratoire, nous avons appris à utiliser la méthode nlargest() dans le DataFrame Pandas. Nous pouvons utiliser cette méthode pour récupérer les N premières lignes sur la base d'une colonne ou de colonnes spécifiées, triées par ordre décroissant. Nous pouvons également spécifier le paramètre keep pour privilégier la première ou la dernière occurrence(s) de lignes avec des valeurs dupliquées. Cette méthode est utile pour trouver rapidement les plus grandes ou les plus hautes valeurs dans un DataFrame selon des critères spécifiques.

Méthode nlargest du DataFrame Pandas