Einführung
In diesem Lab werden wir lernen, wie man die DataFrame.insert()-Methode in der pandas-Bibliothek von Python verwendet. Mit dieser Methode können wir eine Spalte in einem DataFrame an einem bestimmten Ort einfügen. Wir können auch entscheiden, ob doppelte Spalten erlaubt sind oder nicht.
Tipps für die VM
Nachdem die VM gestartet ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.
Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund der Einschränkungen in Jupyter Notebook nicht automatisiert werden.
Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.
Importiere die pandas-Bibliothek
Wir beginnen mit dem Importieren der pandas-Bibliothek, die uns ermöglichen wird, mit DataFrames zu arbeiten.
import pandas as pd
Erstelle ein DataFrame
Als nächstes erstellen wir ein DataFrame, mit dem wir arbeiten können. Für dieses Beispiel erstellen wir ein DataFrame mit zwei Spalten, 'A' und 'B', und vier Zeilen.
df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]})
Füge eine neue Spalte in das DataFrame ein
Jetzt fügen wir eine neue Spalte namens 'C' an Index 2 in das DataFrame ein. Wir setzen den Wert dieser Spalte für alle Zeilen auf 1.
df.insert(2, 'C', 1)
Drucke das DataFrame
Um das aktualisierte DataFrame anzuzeigen, drucken wir es mit der print()-Funktion.
print(df)
Füge eine Series als Spalte ein
Alternativ können wir ein Series-Objekt als Spalte in das DataFrame einfügen. Erstellen wir ein neues Series-Objekt mit den Werten [1, 2, 3, 4] und fügen es an Index 0 in das DataFrame ein.
series = pd.Series([1, 2, 3, 4])
df.insert(0, 'C', series)
Drucke das DataFrame
Noch einmal drucken wir das DataFrame, um die Änderungen zu sehen.
print(df)
Behandle doppelte Spalten
Standardmäßig wirft die DataFrame.insert()-Methode einen ValueError, wenn wir versuchen, eine Spalte mit einem Label einzufügen, das bereits im DataFrame existiert. Wir können jedoch dieses Verhalten außer Kraft setzen, indem wir allow_duplicates auf True setzen. Versuchen wir, eine Spalte mit einem doppelten Label einzufügen und schauen uns das Ergebnis an.
df.insert(2, 'A', 1, allow_duplicates = True)
Drucke das DataFrame
Nachdem wir versucht haben, die doppelte Spalte einzufügen, drucken wir das DataFrame, um die Fehlermeldung zu sehen.
print(df)
Zusammenfassung
In diesem Lab haben wir gelernt, wie man die DataFrame.insert()-Methode in pandas verwendet, um neue Spalten in ein DataFrame an bestimmten Positionen einzufügen. Wir haben gelernt, wie man Spalten mit konstanten Werten und mit Series-Objekten einfügt. Wir haben auch gesehen, wie man bei der Spalteneinfügung mit Duplikaten umgeht. Diese Methode ist nützlich, wenn wir neue Features hinzufügen oder die Struktur unseres DataFrames ändern müssen.