Método duplicado del DataFrame de Pandas

PythonPythonBeginner
Practicar Ahora

💡 Este tutorial está traducido por IA desde la versión en inglés. Para ver la versión original, puedes hacer clic aquí

Introducción

En este laboratorio, aprenderemos sobre el método duplicated() de la biblioteca Pandas para Python. El método duplicated() se utiliza para encontrar filas duplicadas en un DataFrame.

Consejos sobre la VM

Una vez finalizada la inicialización de la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.

A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de las operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.

Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje sus comentarios después de la sesión y lo resolveremos rápidamente para usted.

Importar las bibliotecas necesarias

Primero, debemos importar la biblioteca pandas como pd.

import pandas as pd

Crear un DataFrame

A continuación, vamos a crear un DataFrame con el que trabajar. Utilizaremos el siguiente DataFrame de ejemplo:

df = pd.DataFrame({'Name': ['Navya', 'Vindya', 'Navya', 'Vindya', 'Sinchana', 'Sinchana'],
                   'Skills': ['Python', 'Java', 'Python', 'Java', 'Java', 'Java']})

Encontrar filas duplicadas

Para encontrar filas duplicadas en el DataFrame, podemos utilizar el método duplicated(). Por defecto, considera todas las columnas para identificar duplicados. Devuelve una Serie booleana donde True representa filas duplicadas y False representa filas únicas.

duplicates = df.duplicated()
print(duplicates)

Especificar columnas para identificar duplicados

Si queremos considerar solo ciertas columnas para identificar duplicados, podemos pasar la(s) etiqueta(s) de columna al parámetro subset del método duplicated().

duplicates_subset = df.duplicated(subset=['Skills'])
print(duplicates_subset)

Especificar la marca de duplicados

El parámetro keep del método duplicated() determina cómo se deben marcar los duplicados. Por defecto, está establecido en 'first', que marca todos los duplicados como True excepto la primera aparición. También podemos establecerlo en 'last' o False para marcar los duplicados de manera diferente.

duplicates_keep_last = df.duplicated(keep='last')
print(duplicates_keep_last)

duplicates_keep_false = df.duplicated(keep=False)
print(duplicates_keep_false)

Resumen

En este laboratorio, aprendimos cómo utilizar el método duplicated() en Pandas para encontrar filas duplicadas en un DataFrame. Vimos cómo identificar duplicados basados en ciertas columnas, especificar la marca de duplicados y obtener una Serie booleana que representa las filas duplicadas. El método duplicated() es una herramienta útil para la limpieza de datos y la identificación de datos duplicados.