Método drop_duplicates() en DataFrame de Pandas

PythonPythonBeginner
Practicar Ahora

💡 Este tutorial está traducido por IA desde la versión en inglés. Para ver la versión original, puedes hacer clic aquí

Introducción

En este laboratorio, aprenderemos a usar el método drop_duplicates() en un DataFrame de Pandas para eliminar filas duplicadas. Recorreremos los pasos necesarios para usar este método con ejemplos.

Consejos sobre la VM

Una vez finalizada la inicialización de la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.

A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de las operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.

Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje sus comentarios después de la sesión y lo resolveremos rápidamente para usted.


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL pandas(("Pandas")) -.-> pandas/ReadingDataGroup(["Reading Data"]) pandas(("Pandas")) -.-> pandas/DataCleaningGroup(["Data Cleaning"]) python(("Python")) -.-> python/ModulesandPackagesGroup(["Modules and Packages"]) python(("Python")) -.-> python/PythonStandardLibraryGroup(["Python Standard Library"]) python(("Python")) -.-> python/DataScienceandMachineLearningGroup(["Data Science and Machine Learning"]) pandas/ReadingDataGroup -.-> pandas/read_csv("Read CSV") pandas/ReadingDataGroup -.-> pandas/read_excel("Read Excel") pandas/DataCleaningGroup -.-> pandas/remove_duplicates("Removing Duplicates") python/ModulesandPackagesGroup -.-> python/importing_modules("Importing Modules") python/ModulesandPackagesGroup -.-> python/using_packages("Using Packages") python/PythonStandardLibraryGroup -.-> python/data_collections("Data Collections") python/PythonStandardLibraryGroup -.-> python/data_serialization("Data Serialization") python/DataScienceandMachineLearningGroup -.-> python/data_analysis("Data Analysis") subgraph Lab Skills pandas/read_csv -.-> lab-68611{{"Método drop_duplicates() en DataFrame de Pandas"}} pandas/read_excel -.-> lab-68611{{"Método drop_duplicates() en DataFrame de Pandas"}} pandas/remove_duplicates -.-> lab-68611{{"Método drop_duplicates() en DataFrame de Pandas"}} python/importing_modules -.-> lab-68611{{"Método drop_duplicates() en DataFrame de Pandas"}} python/using_packages -.-> lab-68611{{"Método drop_duplicates() en DataFrame de Pandas"}} python/data_collections -.-> lab-68611{{"Método drop_duplicates() en DataFrame de Pandas"}} python/data_serialization -.-> lab-68611{{"Método drop_duplicates() en DataFrame de Pandas"}} python/data_analysis -.-> lab-68611{{"Método drop_duplicates() en DataFrame de Pandas"}} end

Importar las bibliotecas necesarias

Primero, necesitamos importar las bibliotecas necesarias. En este laboratorio, usaremos la biblioteca Pandas.

import pandas as pd

Crear un DataFrame

A continuación, necesitamos crear un DataFrame que contenga filas duplicadas. Usaremos la función pd.DataFrame() para crear el DataFrame.

df = pd.DataFrame({'Name': ['Navya', 'Vindya', 'Navya', 'Vindya', 'Sinchana', 'Sinchana'],
                   'Skills': ['Python', 'Java', 'Python', 'Java', 'Java', 'Java']})
print(df)

Eliminar filas duplicadas

Ahora, podemos usar el método drop_duplicates() para eliminar las filas duplicadas del DataFrame. Este método devolverá un nuevo DataFrame con las filas duplicadas eliminadas.

df = df.drop_duplicates()
print("Después de eliminar las filas duplicadas:")
print(df)

Resumen

En este laboratorio, aprendimos cómo usar el método drop_duplicates() en un DataFrame de Pandas para eliminar filas duplicadas. Al especificar las columnas a considerar o los duplicados a conservar, podemos personalizar cómo el método maneja los duplicados.

Siguiendo estos pasos, puede eliminar efectivamente las filas duplicadas de un DataFrame de Pandas usando el método drop_duplicates().