Définir les doublons
Dans cette étape, nous allons explorer ce que sont les doublons dans le contexte de la programmation et comment les identifier en Python. Comprendre les doublons est crucial pour le nettoyage, l'analyse et l'optimisation des données.
Qu'est-ce qu'un doublon ?
Les doublons sont simplement des valeurs répétées dans un ensemble de données ou une collection d'éléments. Par exemple, dans la liste [1, 2, 2, 3, 4, 4, 4]
, les nombres 2
et 4
sont des doublons car ils apparaissent plus d'une fois.
Pourquoi identifier les doublons ?
Identifier et gérer les doublons est important pour plusieurs raisons :
- Précision des données : Les doublons peuvent fausser les résultats d'analyse et conduire à des conclusions erronées.
- Efficacité de stockage : Stocker des doublons gaspille de l'espace et des ressources.
- Performances : Traiter des doublons peut ralentir les algorithmes et les applications.
Identifier les doublons en Python
Commençons par créer un script Python pour identifier les doublons dans une liste.
-
Ouvrez votre éditeur VS Code.
-
Créez un nouveau fichier nommé duplicates.py
dans votre répertoire ~/project
.
~/project/duplicates.py
-
Ajoutez le code suivant au fichier duplicates.py
:
def find_duplicates(data):
seen = set()
duplicates = []
for item in data:
if item in seen:
duplicates.append(item)
else:
seen.add(item)
return duplicates
numbers = [1, 2, 2, 3, 4, 4, 4, 5]
duplicate_numbers = find_duplicates(numbers)
print("Original list:", numbers)
print("Duplicate numbers:", duplicate_numbers)
Explication :
- La fonction
find_duplicates
prend une liste data
en entrée.
- Elle utilise un
set
appelé seen
pour suivre les éléments qu'elle a rencontrés jusqu'à présent. Les ensembles (sets) sont utiles car ils ne stockent que des valeurs uniques.
- Elle parcourt la liste
data
. Si un élément est déjà dans le set
seen
, cela signifie qu'il est un doublon, il est donc ajouté à la liste duplicates
. Sinon, l'élément est ajouté au set
seen
.
- Enfin, la fonction retourne la liste
duplicates
.
-
Exécutez le script en utilisant la commande suivante dans votre terminal :
python duplicates.py
Vous devriez voir la sortie suivante :
Original list: [1, 2, 2, 3, 4, 4, 4, 5]
Duplicate numbers: [2, 4, 4]
Cette sortie montre la liste originale et les nombres doublons trouvés dans la liste.