Einführung
In diesem Lab werden wir die interpolate()-Methode in der Pandas-Bibliothek für Python untersuchen. Die interpolate()-Methode wird verwendet, um fehlende oder NaN (Not a Number)-Werte in einem DataFrame mit verschiedenen Interpolationsverfahren zu füllen. Interpolation ist der Prozess, bei dem fehlende Werte anhand der vorhandenen Datenpunkte geschätzt werden.
VM-Tipps
Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.
Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund der Einschränkungen in Jupyter Notebook nicht automatisiert werden.
Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.
Importiere die erforderlichen Bibliotheken
Lassen Sie uns beginnen, indem wir die pandas-Bibliothek und die numpy-Bibliothek importieren.
import pandas as pd
import numpy as np
Erstelle einen DataFrame mit fehlenden Werten
Als nächstes erstellen wir ein DataFrame mit einigen fehlenden Werten.
df = pd.DataFrame([(0.0, np.nan, -1.0, 1.0), (np.nan, 2.0, np.nan, np.nan), (2.0, 3.0, np.nan, 9.0)], columns=list('abcd'))
print(df)
Ausgabe:
a b c d
0 0.0 NaN -1.0 1.0
1 NaN 2.0 NaN NaN
2 2.0 3.0 NaN 9.0
Interpoliere die fehlenden Werte mit der linearen Methode
Wir können die fehlenden Werte mit der linearen Methode interpolieren. Die lineare Methode geht davon aus, dass die Werte im DataFrame gleichmäßig beabstandet sind.
interpolated_df = df.interpolate(method='linear')
print(interpolated_df)
Ausgabe:
a b c d
0 0.0 NaN -1.0 1.0
1 1.0 2.0 -1.0 5.0
2 2.0 3.0 -1.0 9.0
Interpoliere die fehlenden Werte mit der Polynom-Methode
Wir können auch die fehlenden Werte mit der Polynom-Methode interpolieren. Die Polynom-Methode erfordert, dass wir die Ordnung der Spline- oder Polynomfunktion angeben.
interpolated_column = df['a'].interpolate(method='polynomial', order=1)
print(interpolated_column)
Ausgabe:
0 0.0
1 1.0
2 2.0
Name: a, dtype: float64
Interpoliere die fehlenden Werte mit der Pad-Methode
Eine weitere Methode, um fehlende Werte zu interpolieren, ist die Füllmethode (pad). Die Füllmethode füllt die NaN-Werte mit den vorhandenen Werten im DataFrame.
interpolated_df = df.interpolate(method='pad')
print(interpolated_df)
Ausgabe:
a b c d
0 0.0 NaN -1.0 1.0
1 0.0 2.0 -1.0 1.0
2 2.0 3.0 -1.0 9.0
Zusammenfassung
In diesem Lab haben wir gelernt, wie man die interpolate()-Methode in Pandas verwendet, um fehlende oder NaN-Werte in einem DataFrame zu füllen. Wir haben verschiedene Interpolationsmethoden wie linear, polynomiell und Füllung (pad) untersucht. Die Interpolation ist eine nützliche Technik, um fehlende Werte zu schätzen und die Daten für die Analyse vollständiger zu machen.