Pandas DataFrame Interpolationsmethode

PandasPandasBeginner
Jetzt üben

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

In diesem Lab werden wir die interpolate()-Methode in der Pandas-Bibliothek für Python untersuchen. Die interpolate()-Methode wird verwendet, um fehlende oder NaN (Not a Number)-Werte in einem DataFrame mit verschiedenen Interpolationsverfahren zu füllen. Interpolation ist der Prozess, bei dem fehlende Werte anhand der vorhandenen Datenpunkte geschätzt werden.

VM-Tipps

Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund der Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Importieren der erforderlichen Bibliotheken

Lassen Sie uns beginnen, indem wir die pandas-Bibliothek und die numpy-Bibliothek importieren.

import pandas as pd
import numpy as np

Erstellen eines DataFrames mit fehlenden Werten

Als nächstes erstellen wir ein DataFrame mit einigen fehlenden Werten.

df = pd.DataFrame([(0.0, np.nan, -1.0, 1.0), (np.nan, 2.0, np.nan, np.nan), (2.0, 3.0, np.nan, 9.0)], columns=list('abcd'))
print(df)

Ausgabe:

     a    b    c    d
0  0.0  NaN -1.0  1.0
1  NaN  2.0  NaN  NaN
2  2.0  3.0  NaN  9.0

Interpoliere die fehlenden Werte mit der linearen Methode

Wir können die fehlenden Werte mit der linearen Methode interpolieren. Die lineare Methode geht davon aus, dass die Werte im DataFrame gleichmäßig beabstandet sind.

interpolated_df = df.interpolate(method='linear')
print(interpolated_df)

Ausgabe:

     a    b    c    d
0  0.0  NaN -1.0  1.0
1  1.0  2.0 -1.0  5.0
2  2.0  3.0 -1.0  9.0

Interpoliere die fehlenden Werte mit der Polynom-Methode

Wir können auch die fehlenden Werte mit der Polynom-Methode interpolieren. Die Polynom-Methode erfordert, dass wir die Ordnung der Spline- oder Polynomfunktion angeben.

interpolated_column = df['a'].interpolate(method='polynomial', order=1)
print(interpolated_column)

Ausgabe:

0    0.0
1    1.0
2    2.0
Name: a, dtype: float64

Interpoliere die fehlenden Werte mit der Füllmethode (pad)

Eine weitere Methode, um fehlende Werte zu interpolieren, ist die Füllmethode (pad). Die Füllmethode füllt die NaN-Werte mit den vorhandenen Werten im DataFrame.

interpolated_df = df.interpolate(method='pad')
print(interpolated_df)

Ausgabe:

     a    b    c    d
0  0.0  NaN -1.0  1.0
1  0.0  2.0 -1.0  1.0
2  2.0  3.0 -1.0  9.0

Zusammenfassung

In diesem Lab haben wir gelernt, wie man die interpolate()-Methode in Pandas verwendet, um fehlende oder NaN-Werte in einem DataFrame zu füllen. Wir haben verschiedene Interpolationsmethoden wie linear, polynomiell und Füllung (pad) untersucht. Die Interpolation ist eine nützliche Technik, um fehlende Werte zu schätzen und die Daten für die Analyse vollständiger zu machen.