Méthode pour supprimer les doublons dans un DataFrame Pandas

PythonPythonBeginner
Pratiquer maintenant

💡 Ce tutoriel est traduit par l'IA à partir de la version anglaise. Pour voir la version originale, vous pouvez cliquer ici

Introduction

Dans ce laboratoire, nous allons apprendre à utiliser la méthode drop_duplicates() dans un DataFrame Pandas pour supprimer les lignes dupliquées. Nous allons parcourir les étapes nécessaires pour utiliser cette méthode avec des exemples.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Notebook pour accéder à Jupyter Notebook pour la pratique.

Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous réglerons rapidement le problème pour vous.


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL python(("Python")) -.-> python/PythonStandardLibraryGroup(["Python Standard Library"]) python(("Python")) -.-> python/DataScienceandMachineLearningGroup(["Data Science and Machine Learning"]) pandas(("Pandas")) -.-> pandas/ReadingDataGroup(["Reading Data"]) pandas(("Pandas")) -.-> pandas/DataCleaningGroup(["Data Cleaning"]) python(("Python")) -.-> python/ModulesandPackagesGroup(["Modules and Packages"]) pandas/ReadingDataGroup -.-> pandas/read_csv("Read CSV") pandas/ReadingDataGroup -.-> pandas/read_excel("Read Excel") pandas/DataCleaningGroup -.-> pandas/remove_duplicates("Removing Duplicates") python/ModulesandPackagesGroup -.-> python/importing_modules("Importing Modules") python/ModulesandPackagesGroup -.-> python/using_packages("Using Packages") python/PythonStandardLibraryGroup -.-> python/data_collections("Data Collections") python/PythonStandardLibraryGroup -.-> python/data_serialization("Data Serialization") python/DataScienceandMachineLearningGroup -.-> python/data_analysis("Data Analysis") subgraph Lab Skills pandas/read_csv -.-> lab-68611{{"Méthode pour supprimer les doublons dans un DataFrame Pandas"}} pandas/read_excel -.-> lab-68611{{"Méthode pour supprimer les doublons dans un DataFrame Pandas"}} pandas/remove_duplicates -.-> lab-68611{{"Méthode pour supprimer les doublons dans un DataFrame Pandas"}} python/importing_modules -.-> lab-68611{{"Méthode pour supprimer les doublons dans un DataFrame Pandas"}} python/using_packages -.-> lab-68611{{"Méthode pour supprimer les doublons dans un DataFrame Pandas"}} python/data_collections -.-> lab-68611{{"Méthode pour supprimer les doublons dans un DataFrame Pandas"}} python/data_serialization -.-> lab-68611{{"Méthode pour supprimer les doublons dans un DataFrame Pandas"}} python/data_analysis -.-> lab-68611{{"Méthode pour supprimer les doublons dans un DataFrame Pandas"}} end

Importez les bibliothèques requises

Tout d'abord, nous devons importer les bibliothèques requises. Dans ce laboratoire, nous allons utiliser la bibliothèque Pandas.

import pandas as pd

Créez un DataFrame

Ensuite, nous devons créer un DataFrame qui contient des lignes dupliquées. Nous allons utiliser la fonction pd.DataFrame() pour créer le DataFrame.

df = pd.DataFrame({'Name': ['Navya', 'Vindya', 'Navya', 'Vindya', 'Sinchana', 'Sinchana'],
                   'Skills': ['Python', 'Java', 'Python', 'Java', 'Java', 'Java']})
print(df)

Supprimez les lignes dupliquées

Maintenant, nous pouvons utiliser la méthode drop_duplicates() pour supprimer les lignes dupliquées du DataFrame. Cette méthode renverra un nouveau DataFrame avec les lignes dupliquées supprimées.

df = df.drop_duplicates()
print("Après avoir supprimé les lignes dupliquées :")
print(df)

Récapitulatif

Dans ce laboratoire, nous avons appris à utiliser la méthode drop_duplicates() dans un DataFrame Pandas pour supprimer les lignes dupliquées. En spécifiant les colonnes à considérer ou les doublons à conserver, nous pouvons personnaliser la manière dont la méthode gère les doublons.

En suivant ces étapes, vous pouvez efficacement supprimer les lignes dupliquées d'un DataFrame Pandas en utilisant la méthode drop_duplicates().