Definition von Duplikaten
In diesem Schritt werden wir untersuchen, was Duplikate im Kontext der Programmierung sind und wie man sie in Python erkennt. Das Verständnis von Duplikaten ist für die Datenbereinigung, -analyse und -optimierung von entscheidender Bedeutung.
Was sind Duplikate?
Duplikate sind einfach wiederholte Werte in einem Datensatz oder einer Sammlung von Elementen. Beispielsweise sind in der Liste [1, 2, 2, 3, 4, 4, 4]
die Zahlen 2
und 4
Duplikate, weil sie mehr als einmal auftauchen.
Warum sollten Duplikate erkannt werden?
Das Erkennen und Behandeln von Duplikaten ist aus mehreren Gründen wichtig:
- Datengenauigkeit: Duplikate können Analyseergebnisse verfälschen und zu falschen Schlussfolgerungen führen.
- Speichereffizienz: Das Speichern von Duplikaten verschwendet Speicherplatz und Ressourcen.
- Leistung: Die Verarbeitung von Duplikaten kann Algorithmen und Anwendungen verlangsamen.
Das Erkennen von Duplikaten in Python
Lassen Sie uns beginnen, ein Python-Skript zu erstellen, um Duplikate in einer Liste zu erkennen.
-
Öffnen Sie Ihren VS Code-Editor.
-
Erstellen Sie eine neue Datei mit dem Namen duplicates.py
in Ihrem ~/project
-Verzeichnis.
~/project/duplicates.py
-
Fügen Sie den folgenden Code zur duplicates.py
-Datei hinzu:
def find_duplicates(data):
seen = set()
duplicates = []
for item in data:
if item in seen:
duplicates.append(item)
else:
seen.add(item)
return duplicates
numbers = [1, 2, 2, 3, 4, 4, 4, 5]
duplicate_numbers = find_duplicates(numbers)
print("Original list:", numbers)
print("Duplicate numbers:", duplicate_numbers)
Erklärung:
- Die
find_duplicates
-Funktion nimmt eine Liste data
als Eingabe.
- Sie verwendet ein
set
namens seen
, um die Elemente zu verfolgen, die sie bisher gesehen hat. Sets sind nützlich, weil sie nur eindeutige Werte speichern.
- Sie iteriert durch die
data
-Liste. Wenn ein Element bereits im seen
-Set enthalten ist, bedeutet dies, dass es ein Duplikat ist, und es wird der duplicates
-Liste hinzugefügt. Andernfalls wird das Element dem seen
-Set hinzugefügt.
- Schließlich gibt die Funktion die
duplicates
-Liste zurück.
-
Führen Sie das Skript mit dem folgenden Befehl in Ihrem Terminal aus:
python duplicates.py
Sie sollten die folgende Ausgabe sehen:
Original list: [1, 2, 2, 3, 4, 4, 4, 5]
Duplicate numbers: [2, 4, 4]
Diese Ausgabe zeigt die ursprüngliche Liste und die in der Liste gefundenen Duplikate.