Introduction
Dans ce laboratoire, nous allons explorer la méthode interpolate() de la bibliothèque Pandas pour Python. La méthode interpolate() est utilisée pour remplir les valeurs manquantes ou NaN (Not a Number) dans un DataFrame en utilisant diverses techniques d'interpolation. L'interpolation est le processus d'estimation des valeurs manquantes sur la base des points de données existants.
Conseils sur la machine virtuelle
Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Notebook pour accéder à Jupyter Notebook pour la pratique.
Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.
Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.
Importer les bibliothèques nécessaires
Commencez par importer la bibliothèque pandas et la bibliothèque numpy.
import pandas as pd
import numpy as np
Créer un DataFrame avec des valeurs manquantes
Ensuite, créons un DataFrame avec quelques valeurs manquantes.
df = pd.DataFrame([(0.0, np.nan, -1.0, 1.0), (np.nan, 2.0, np.nan, np.nan), (2.0, 3.0, np.nan, 9.0)], columns=list('abcd'))
print(df)
Sortie :
a b c d
0 0.0 NaN -1.0 1.0
1 NaN 2.0 NaN NaN
2 2.0 3.0 NaN 9.0
Interpoler les valeurs manquantes en utilisant la méthode linéaire
Nous pouvons interpolez les valeurs manquantes en utilisant la méthode linéaire. La méthode linéaire suppose que les valeurs dans le DataFrame sont régulièrement espacées.
interpolated_df = df.interpolate(method='linear')
print(interpolated_df)
Sortie :
a b c d
0 0.0 NaN -1.0 1.0
1 1.0 2.0 -1.0 5.0
2 2.0 3.0 -1.0 9.0
Interpoler les valeurs manquantes en utilisant la méthode polynomiale
Nous pouvons également interpolez les valeurs manquantes en utilisant la méthode polynomiale. La méthode polynomiale nous oblige à spécifier l'ordre du spline ou du polynôme.
interpolated_column = df['a'].interpolate(method='polynomial', order=1)
print(interpolated_column)
Sortie :
0 0.0
1 1.0
2 2.0
Name: a, dtype: float64
Interpoler les valeurs manquantes en utilisant la méthode de remplissage par padding
Une autre méthode pour interpolez les valeurs manquantes est la méthode de remplissage par la valeur précédente. Cette méthode remplit les valeurs NaN avec les valeurs existantes dans le DataFrame.
interpolated_df = df.interpolate(method='pad')
print(interpolated_df)
Sortie :
a b c d
0 0.0 NaN -1.0 1.0
1 0.0 2.0 -1.0 1.0
2 2.0 3.0 -1.0 9.0
Résumé
Dans ce laboratoire, nous avons appris à utiliser la méthode interpolate() dans Pandas pour remplir les valeurs manquantes ou NaN dans un DataFrame. Nous avons exploré différentes méthodes d'interpolation telles que linéaire, polynomiale et de remplissage par la valeur précédente. L'interpolation est une technique utile pour estimer les valeurs manquantes et rendre les données plus complètes pour l'analyse.