Definir Duplicados
En este paso, exploraremos qué son los duplicados en el contexto de la programación y cómo identificarlos en Python. Comprender los duplicados es crucial para la limpieza, análisis y optimización de datos.
¿Qué son los Duplicados?
Los duplicados son simplemente valores repetidos dentro de un conjunto de datos o una colección de elementos. Por ejemplo, en la lista [1, 2, 2, 3, 4, 4, 4]
, los números 2
y 4
son duplicados porque aparecen más de una vez.
¿Por qué Identificar Duplicados?
Identificar y manejar duplicados es importante por varias razones:
- Precisión de los Datos: Los duplicados pueden distorsionar los resultados del análisis y llevar a conclusiones incorrectas.
- Eficiencia de Almacenamiento: Almacenar duplicados desperdicia espacio y recursos.
- Rendimiento: Procesar duplicados puede ralentizar algoritmos y aplicaciones.
Identificar Duplicados en Python
Comencemos creando un script de Python para identificar duplicados en una lista.
-
Abra su editor de VS Code.
-
Cree un nuevo archivo llamado duplicates.py
en su directorio ~/project
.
~/project/duplicates.py
-
Agregue el siguiente código al archivo duplicates.py
:
def find_duplicates(data):
seen = set()
duplicates = []
for item in data:
if item in seen:
duplicates.append(item)
else:
seen.add(item)
return duplicates
numbers = [1, 2, 2, 3, 4, 4, 4, 5]
duplicate_numbers = find_duplicates(numbers)
print("Original list:", numbers)
print("Duplicate numbers:", duplicate_numbers)
Explicación:
- La función
find_duplicates
toma una lista data
como entrada.
- Utiliza un
set
llamado seen
para llevar un registro de los elementos que ha encontrado hasta el momento. Los conjuntos (sets) son útiles porque solo almacenan valores únicos.
- Recorre la lista
data
. Si un elemento ya está en el conjunto seen
, significa que es un duplicado, por lo que se agrega a la lista duplicates
. De lo contrario, el elemento se agrega al conjunto seen
.
- Finalmente, la función devuelve la lista
duplicates
.
-
Ejecute el script utilizando el siguiente comando en su terminal:
python duplicates.py
Debería ver la siguiente salida:
Original list: [1, 2, 2, 3, 4, 4, 4, 5]
Duplicate numbers: [2, 4, 4]
Esta salida muestra la lista original y los números duplicados encontrados en la lista.