Pandas DataFrame | Entfernen von doppelten Zeilen

Einführung

In diesem Lab werden wir lernen, wie man die drop_duplicates()-Methode in einem Pandas DataFrame verwendet, um doppelte Zeilen zu entfernen. Wir werden die erforderlichen Schritte mit Beispielen durchgehen.

Tipps für die VM

Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Importiere die erforderlichen Bibliotheken

Zunächst müssen wir die erforderlichen Bibliotheken importieren. In diesem Lab werden wir die Pandas-Bibliothek verwenden.

import pandas as pd

Erstelle einen DataFrame

Als nächstes müssen wir einen DataFrame erstellen, der doppelte Zeilen enthält. Wir werden die pd.DataFrame()-Funktion verwenden, um den DataFrame zu erstellen.

df = pd.DataFrame({'Name': ['Navya', 'Vindya', 'Navya', 'Vindya', 'Sinchana', 'Sinchana'],
                   'Skills': ['Python', 'Java', 'Python', 'Java', 'Java', 'Java']})
print(df)

Entferne doppelte Zeilen

Jetzt können wir die drop_duplicates()-Methode verwenden, um die doppelten Zeilen aus dem DataFrame zu entfernen. Diese Methode wird einen neuen DataFrame zurückgeben, aus dem die doppelten Zeilen entfernt wurden.

df = df.drop_duplicates()
print("Nach dem Entfernen von doppelten Zeilen:")
print(df)

Zusammenfassung

In diesem Lab haben wir gelernt, wie man die drop_duplicates()-Methode in einem Pandas DataFrame verwendet, um doppelte Zeilen zu entfernen. Indem man die Spalten angibt, die berücksichtigt werden sollen, oder die Duplikate, die beibehalten werden sollen, kann man anpassen, wie die Methode Duplikate behandelt.

Indem man diese Schritte befolgt, kann man effektiv doppelte Zeilen aus einem Pandas DataFrame mit der drop_duplicates()-Methode entfernen.