Méthode dupliquée du DataFrame Pandas

PythonPythonBeginner
Pratiquer maintenant

💡 Ce tutoriel est traduit par l'IA à partir de la version anglaise. Pour voir la version originale, vous pouvez cliquer ici

Introduction

Dans ce laboratoire, nous allons apprendre à utiliser la méthode duplicated() de la bibliothèque Pandas pour Python. La méthode duplicated() est utilisée pour trouver les lignes dupliquées dans un DataFrame.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Notebook pour accéder à Jupyter Notebook pour la pratique.

Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.

Importez les bibliothèques nécessaires

Tout d'abord, nous devons importer la bibliothèque pandas sous le nom pd.

import pandas as pd

Créez un DataFrame

Ensuite, créons un DataFrame avec lequel travailler. Nous utiliserons le DataFrame d'exemple suivant :

df = pd.DataFrame({'Name': ['Navya', 'Vindya', 'Navya', 'Vindya', 'Sinchana', 'Sinchana'],
                   'Skills': ['Python', 'Java', 'Python', 'Java', 'Java', 'Java']})

Trouvez les lignes dupliquées

Pour trouver les lignes dupliquées dans le DataFrame, nous pouvons utiliser la méthode duplicated(). Par défaut, elle considère toutes les colonnes pour identifier les doublons. Elle renvoie une série booléenne où True représente les lignes dupliquées et False représente les lignes uniques.

duplicates = df.duplicated()
print(duplicates)

Spécifiez les colonnes pour identifier les doublons

Si nous voulons considérer seulement certaines colonnes pour identifier les doublons, nous pouvons passer le ou les étiquettes de colonne au paramètre subset de la méthode duplicated().

duplicates_subset = df.duplicated(subset=['Skills'])
print(duplicates_subset)

Spécifiez la marque des doublons

Le paramètre keep de la méthode duplicated() détermine comment les doublons doivent être marqués. Par défaut, il est défini sur 'first', qui marque tous les doublons comme True sauf la première occurrence. Nous pouvons également le définir sur 'last' ou False pour marquer les doublons différemment.

duplicates_keep_last = df.duplicated(keep='last')
print(duplicates_keep_last)

duplicates_keep_false = df.duplicated(keep=False)
print(duplicates_keep_false)

Sommaire

Dans ce laboratoire, nous avons appris à utiliser la méthode duplicated() dans Pandas pour trouver les lignes dupliquées dans un DataFrame. Nous avons vu comment identifier les doublons sur la base de certaines colonnes, spécifier la marque des doublons et obtenir une série booléenne représentant les lignes dupliquées. La méthode duplicated() est un outil utile pour le nettoyage des données et l'identification des données dupliquées.