Einführung
In diesem Lab werden wir untersuchen, wie man Daten in pandas mit verschiedenen Funktionen wie sort_values, pivot, pivot_table und melt umgestalten kann. Wir werden mit den Titanic- und Luftqualitätsdatenätzen arbeiten, um die Umgestaltungstechniken zu demonstrieren.
VM-Tipps
Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.
Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.
Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.
Bibliotheken importieren und Daten laden
Zunächst importieren wir die erforderlichen Bibliotheken und laden die Datensätze.
import pandas as pd
## Titanic-Datensatz laden
titanic = pd.read_csv("data/titanic.csv")
## Luftqualitäts-Datensatz laden
air_quality = pd.read_csv("data/air_quality_long.csv", index_col="date.utc", parse_dates=True)
Tabellenzeilen sortieren
Sortieren Sie den Titanic-Datensatz nach dem Alter der Passagiere und anschließend nach der Kabinenklasse und dem Alter in absteigender Reihenfolge.
## Sortieren nach Alter
titanic.sort_values(by="Age").head()
## Sortieren nach Pclass und Alter in absteigender Reihenfolge
titanic.sort_values(by=['Pclass', 'Age'], ascending=False).head()
Umwandlung von langem in breites Tabellenformat
Wir werden nun die langformatigen Luftqualitätsdaten in das breite Format umwandeln, indem wir die pivot-Funktion verwenden.
## Filtern Sie nur nach NO2-Daten
no2 = air_quality[air_quality["parameter"] == "no2"]
## Verwenden Sie 2 Messungen (head) für jede Location (groupby)
no2_subset = no2.sort_index().groupby(["location"]).head(2)
## Drehen Sie die Daten
no2_subset.pivot(columns="location", values="value")
Erstellen einer Pivot-Tabelle
Erstellen Sie eine Pivot-Tabelle, um die mittleren Konzentrationen von 𝑁𝑂2 und 𝑃𝑀25 in jedem der Stationen zu bestimmen.
air_quality.pivot_table(
values="value", index="location", columns="parameter", aggfunc="mean"
)
Umwandlung von breitem in langes Format
Nun wandeln wir die breitformatigen Daten von 𝑁𝑂2 in das langformat mit der melt-Funktion um.
## Setzen Sie den Index für no2_pivoted zurück
no2_pivoted = no2.pivot(columns="location", values="value").reset_index()
## Schmelzen Sie die Daten
no_2 = no2_pivoted.melt(id_vars="date.utc")
Zusammenfassung
In diesem Lab haben wir gelernt, wie man Daten in pandas mit verschiedenen Funktionen wie sort_values, pivot, pivot_table und melt umformen kann. Wir haben diese Techniken auf den Titanic- und Luftqualitätsdatensätzen angewendet, um die Daten zu sortieren, zu pivotieren und zu schmelzen. Diese Umformtechniken sind essentiell, wenn man mit Daten in pandas arbeitet, und können uns helfen, die Daten effizient zu analysieren und zu visualisieren.