Einführung
In diesem Lab werden wir uns mit der duplicated()-Methode in der Pandas-Bibliothek für Python befassen. Die duplicated()-Methode wird verwendet, um doppelte Zeilen in einem DataFrame zu finden.
Tipps für die VM
Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.
Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.
Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.
Importiere die erforderlichen Bibliotheken
Zunächst müssen wir die pandas-Bibliothek als pd importieren.
import pandas as pd
Erstelle einen DataFrame
Als nächstes erstellen wir ein DataFrame, mit dem wir arbeiten können. Wir verwenden das folgende Beispiel-DataFrame:
df = pd.DataFrame({'Name': ['Navya', 'Vindya', 'Navya', 'Vindya', 'Sinchana', 'Sinchana'],
'Skills': ['Python', 'Java', 'Python', 'Java', 'Java', 'Java']})
Suche nach doppelten Zeilen
Um doppelte Zeilen im DataFrame zu finden, können wir die duplicated()-Methode verwenden. Standardmäßig betrachtet sie alle Spalten zur Identifizierung von Duplikaten. Es gibt eine boolesche Series zurück, wobei True doppelte Zeilen und False einzigartige Zeilen repräsentiert.
duplicates = df.duplicated()
print(duplicates)
Definiere Spalten zur Identifizierung von Duplikaten
Wenn wir nur bestimmte Spalten für die Identifizierung von Duplikaten berücksichtigen möchten, können wir die Spaltenbezeichnung(en) an den subset-Parameter der duplicated()-Methode übergeben.
duplicates_subset = df.duplicated(subset=['Skills'])
print(duplicates_subset)
Definiere die Markierung von Duplikaten
Der keep-Parameter der duplicated()-Methode bestimmt, wie Duplikate markiert werden sollen. Standardmäßig ist er auf 'first' gesetzt, was alle Duplikate als True markiert, außer die erste Vorkommen. Wir können ihn auch auf 'last' oder False setzen, um Duplikate unterschiedlich zu markieren.
duplicates_keep_last = df.duplicated(keep='last')
print(duplicates_keep_last)
duplicates_keep_false = df.duplicated(keep=False)
print(duplicates_keep_false)
Zusammenfassung
In diesem Lab haben wir gelernt, wie man die duplicated()-Methode in Pandas verwendet, um doppelte Zeilen in einem DataFrame zu finden. Wir haben gesehen, wie man Duplikate anhand bestimmter Spalten identifiziert, die Duplikatmarkierung angibt und eine boolesche Series erhält, die doppelte Zeilen repräsentiert. Die duplicated()-Methode ist ein nützliches Werkzeug für die Datenbereinigung und die Identifizierung von duplizierten Daten.