Meisterung der Pandas DataFrame Duplizierten Methode

Einführung

In diesem Lab werden wir uns mit der duplicated()-Methode in der Pandas-Bibliothek für Python befassen. Die duplicated()-Methode wird verwendet, um doppelte Zeilen in einem DataFrame zu finden.

Tipps für die VM

Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Importieren der erforderlichen Bibliotheken

Zunächst müssen wir die pandas-Bibliothek als pd importieren.

import pandas as pd

Erstellen eines DataFrames

Als nächstes erstellen wir ein DataFrame, mit dem wir arbeiten können. Wir verwenden das folgende Beispiel-DataFrame:

df = pd.DataFrame({'Name': ['Navya', 'Vindya', 'Navya', 'Vindya', 'Sinchana', 'Sinchana'],
                   'Skills': ['Python', 'Java', 'Python', 'Java', 'Java', 'Java']})

Doppelte Zeilen finden

Um doppelte Zeilen im DataFrame zu finden, können wir die duplicated()-Methode verwenden. Standardmäßig betrachtet sie alle Spalten zur Identifizierung von Duplikaten. Es gibt eine boolesche Series zurück, wobei True doppelte Zeilen und False einzigartige Zeilen repräsentiert.

duplicates = df.duplicated()
print(duplicates)

Spalten für die Identifizierung von Duplikaten angeben

Wenn wir nur bestimmte Spalten für die Identifizierung von Duplikaten berücksichtigen möchten, können wir die Spaltenbezeichnung(en) an den subset-Parameter der duplicated()-Methode übergeben.

duplicates_subset = df.duplicated(subset=['Skills'])
print(duplicates_subset)

Angabe der Duplikatmarkierung

Der keep-Parameter der duplicated()-Methode bestimmt, wie Duplikate markiert werden sollen. Standardmäßig ist er auf 'first' gesetzt, was alle Duplikate als True markiert, außer die erste Vorkommen. Wir können ihn auch auf 'last' oder False setzen, um Duplikate unterschiedlich zu markieren.

duplicates_keep_last = df.duplicated(keep='last')
print(duplicates_keep_last)

duplicates_keep_false = df.duplicated(keep=False)
print(duplicates_keep_false)

Zusammenfassung

In diesem Lab haben wir gelernt, wie man die duplicated()-Methode in Pandas verwendet, um doppelte Zeilen in einem DataFrame zu finden. Wir haben gesehen, wie man Duplikate anhand bestimmter Spalten identifiziert, die Duplikatmarkierung angibt und eine boolesche Series erhält, die doppelte Zeilen repräsentiert. Die duplicated()-Methode ist ein nützliches Werkzeug für die Datenbereinigung und die Identifizierung von duplizierten Daten.

Pandas DataFrame Duplizierte Methode