Datenumformung mit Pandas: Techniken und Beispiele

Einführung

In diesem Lab werden wir untersuchen, wie man Daten in pandas mit verschiedenen Funktionen wie sort_values, pivot, pivot_table und melt umgestalten kann. Wir werden mit den Titanic- und Luftqualitätsdatenätzen arbeiten, um die Umgestaltungstechniken zu demonstrieren.

VM-Tipps

Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Dies ist ein Guided Lab, das schrittweise Anweisungen bietet, um Ihnen beim Lernen und Üben zu helfen. Befolgen Sie die Anweisungen sorgfältig, um jeden Schritt abzuschließen und praktische Erfahrungen zu sammeln. Historische Daten zeigen, dass dies ein Labor der Stufe Anfänger mit einer Abschlussquote von 97% ist. Es hat eine positive Bewertungsrate von 100% von den Lernenden erhalten.

Bibliotheken importieren und Daten laden

Zunächst importieren wir die erforderlichen Bibliotheken und laden die Datensätze.

import pandas as pd

## Titanic-Datensatz laden
titanic = pd.read_csv("data/titanic.csv")

## Luftqualitäts-Datensatz laden
air_quality = pd.read_csv("data/air_quality_long.csv", index_col="date.utc", parse_dates=True)

Tabellenzeilen sortieren

Sortieren Sie den Titanic-Datensatz nach dem Alter der Passagiere und anschließend nach der Kabinenklasse und dem Alter in absteigender Reihenfolge.

## Sortieren nach Alter
titanic.sort_values(by="Age").head()

## Sortieren nach Pclass und Alter in absteigender Reihenfolge
titanic.sort_values(by=['Pclass', 'Age'], ascending=False).head()

Umwandlung von langem in breites Tabellenformat

Wir werden nun die langformatigen Luftqualitätsdaten in das breite Format umwandeln, indem wir die pivot-Funktion verwenden.

## Filtern Sie nur nach NO2-Daten
no2 = air_quality[air_quality["parameter"] == "no2"]

## Verwenden Sie 2 Messungen (head) für jede Location (groupby)
no2_subset = no2.sort_index().groupby(["location"]).head(2)

## Drehen Sie die Daten
no2_subset.pivot(columns="location", values="value")

Erstellen einer Pivot-Tabelle

Erstellen Sie eine Pivot-Tabelle, um die mittleren Konzentrationen von 𝑁𝑂2 und 𝑃𝑀25 in jedem der Stationen zu bestimmen.

air_quality.pivot_table(
    values="value", index="location", columns="parameter", aggfunc="mean"
)

Umwandlung von breitem in langes Format

Nun wandeln wir die breitformatigen Daten von 𝑁𝑂2 in das langformat mit der melt-Funktion um.

## Setzen Sie den Index für no2_pivoted zurück
no2_pivoted = no2.pivot(columns="location", values="value").reset_index()

## Schmelzen Sie die Daten
no_2 = no2_pivoted.melt(id_vars="date.utc")

Zusammenfassung

In diesem Lab haben wir gelernt, wie man Daten in pandas mit verschiedenen Funktionen wie sort_values, pivot, pivot_table und melt umformen kann. Wir haben diese Techniken auf den Titanic- und Luftqualitätsdatensätzen angewendet, um die Daten zu sortieren, zu pivotieren und zu schmelzen. Diese Umformtechniken sind essentiell, wenn man mit Daten in pandas arbeitet, und können uns helfen, die Daten effizient zu analysieren und zu visualisieren.