Duplikate definieren
In diesem Schritt werden wir untersuchen, was Duplikate im Kontext der Programmierung sind und wie man sie in Python erkennt. Das Verständnis von Duplikaten ist für die Datenbereinigung, -analyse und -optimierung von entscheidender Bedeutung.
Was sind Duplikate?
Duplikate sind einfach wiederholte Werte in einem Datensatz oder einer Sammlung von Elementen. Beispielsweise sind in der Liste [1, 2, 2, 3, 4, 4, 4] die Zahlen 2 und 4 Duplikate, weil sie mehr als einmal auftauchen.
Warum sollten Duplikate erkannt werden?
Das Erkennen und Behandeln von Duplikaten ist aus mehreren Gründen wichtig:
- Datengenauigkeit: Duplikate können Analyseergebnisse verfälschen und zu falschen Schlussfolgerungen führen.
- Speichereffizienz: Das Speichern von Duplikaten verschwendet Speicherplatz und Ressourcen.
- Leistung: Die Verarbeitung von Duplikaten kann Algorithmen und Anwendungen verlangsamen.
Das Erkennen von Duplikaten in Python
Lassen Sie uns beginnen, ein Python-Skript zu erstellen, um Duplikate in einer Liste zu erkennen.
-
Öffnen Sie Ihren VS Code-Editor.
-
Erstellen Sie eine neue Datei mit dem Namen duplicates.py in Ihrem ~/project-Verzeichnis.
~/project/duplicates.py
-
Fügen Sie den folgenden Code zur duplicates.py-Datei hinzu:
def find_duplicates(data):
seen = set()
duplicates = []
for item in data:
if item in seen:
duplicates.append(item)
else:
seen.add(item)
return duplicates
numbers = [1, 2, 2, 3, 4, 4, 4, 5]
duplicate_numbers = find_duplicates(numbers)
print("Original list:", numbers)
print("Duplicate numbers:", duplicate_numbers)
Erklärung:
- Die
find_duplicates-Funktion nimmt eine Liste data als Eingabe.
- Sie verwendet ein
set namens seen, um die Elemente zu verfolgen, die sie bisher gesehen hat. Sets sind nützlich, weil sie nur eindeutige Werte speichern.
- Sie iteriert durch die
data-Liste. Wenn ein Element bereits im seen-Set enthalten ist, bedeutet dies, dass es ein Duplikat ist, und es wird der duplicates-Liste hinzugefügt. Andernfalls wird das Element dem seen-Set hinzugefügt.
- Schließlich gibt die Funktion die
duplicates-Liste zurück.
-
Führen Sie das Skript mit dem folgenden Befehl in Ihrem Terminal aus:
python duplicates.py
Sie sollten die folgende Ausgabe sehen:
Original list: [1, 2, 2, 3, 4, 4, 4, 5]
Duplicate numbers: [2, 4, 4]
Diese Ausgabe zeigt die ursprüngliche Liste und die in der Liste gefundenen Duplikate.