Méthode fillna pour les DataFrame Pandas

PythonPythonBeginner
Pratiquer maintenant

💡 Ce tutoriel est traduit par l'IA à partir de la version anglaise. Pour voir la version originale, vous pouvez cliquer ici

Introduction

Dans ce laboratoire, vous allez apprendre à utiliser la méthode fillna() de la bibliothèque Pandas. La méthode fillna() vous permet de remplir les valeurs manquantes ou NaN (Not a Number) dans un DataFrame avec des valeurs spécifiées ou en utilisant une méthode spécifiée.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Notebook pour accéder à Jupyter Notebook pour la pratique.

Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.

Importation des bibliothèques nécessaires

Commencez par importer la bibliothèque Pandas :

import pandas as pd

Créez un DataFrame avec des valeurs manquantes

Ensuite, créons un DataFrame avec quelques valeurs manquantes :

df = pd.DataFrame([[2, pd.nan, 0], [pd.nan, pd.nan, 5], [pd.nan, 3, pd.nan]], columns=list('ABC'))
print("Le DataFrame est :")
print(df)

Remplissez les valeurs manquantes avec une valeur spécifiée

Nous pouvons utiliser la méthode fillna() pour remplacer toutes les valeurs manquantes par une valeur spécifiée. Par exemple, remplaçons toutes les valeurs manquantes dans le DataFrame par la valeur 2 :

print("Remplissage des valeurs NaN :")
print(df.fillna(2))

Remplissez les valeurs manquantes en utilisant la méthode de remplissage avant

Au lieu d'utiliser une seule valeur pour remplir les valeurs manquantes, nous pouvons propager les valeurs non nulles vers l'avant en utilisant la méthode de remplissage avant (ffill). Cette méthode remplit les valeurs manquantes avec la dernière valeur non nulle observée dans la même colonne.

print("Remplissage des valeurs NaN en utilisant la méthode de remplissage avant :")
print(df.fillna(method='ffill'))

Remplissez les valeurs manquantes en utilisant la méthode de remplissage avant le long des colonnes

Nous pouvons également utiliser la méthode de remplissage avant le long des colonnes en définissant le paramètre axis sur 1.

print("Remplissage des valeurs NaN en utilisant la méthode de remplissage avant le long des colonnes :")
print(df.fillna(method='ffill', axis=1))

Remplissez les valeurs manquantes en utilisant la méthode de remplissage arrière

De manière similaire, nous pouvons utiliser la méthode de remplissage arrière (bfill) pour propager les valeurs non nulles vers l'arrière. Cette méthode remplit les valeurs manquantes avec la valeur non nulle suivante observée dans la même colonne.

print("Remplissage des valeurs NaN en utilisant la méthode de remplissage arrière :")
print(df.fillna(method='bfill'))

Remplacez les valeurs manquantes de colonnes spécifiques par des valeurs spécifiées

Nous pouvons remplacer les valeurs manquantes de colonnes spécifiques par différentes valeurs spécifiées. Par exemple, remplaçons les valeurs manquantes dans les colonnes 'A', 'B', 'C' et 'D' par les valeurs 0, 1, 2 et 3 respectivement.

print("Remplissage des valeurs NaN dans des colonnes spécifiques :")
new_values = {'A': 0, 'B': 1, 'C': 2, 'D': 3}
print(df.fillna(value=new_values))

Limitez le nombre de valeurs NaN consécutives à remplir

Nous pouvons également limiter le nombre de valeurs NaN consécutives à remplir en utilisant le paramètre limit. Par exemple, limitons le remplissage avant à une seule valeur NaN consécutive.

print("Remplissage des valeurs NaN avec une limite :")
print(df.fillna(method='ffill', limit=1))

Sommaire

Dans ce laboratoire, vous avez appris à utiliser la méthode fillna() de la bibliothèque Pandas pour remplir les valeurs manquantes ou NaN dans un DataFrame. Vous avez exploré diverses façons de remplir les valeurs manquantes, y compris en utilisant une valeur spécifiée, en remplissant vers l'avant, en remplissant vers l'arrière et en limitant le nombre de valeurs NaN consécutives à remplir. Fillna est une méthode utile pour traiter les données manquantes et assurer l'intégrité de votre DataFrame.