Gérer les données manquantes

PythonPythonBeginner
Pratiquer maintenant

This tutorial is from open-source community. Access the source code

💡 Ce tutoriel est traduit par l'IA à partir de la version anglaise. Pour voir la version originale, vous pouvez cliquer ici

Introduction

Dans ce laboratoire, nous allons apprendre à gérer les données manquantes dans pandas, un problème courant en analyse de données. Nous aborderons la manière d'identifier les données manquantes, de remplir les valeurs manquantes et de supprimer les données inutiles. Nous parlerons également de l'échelle expérimentale NA dans pandas qui peut être utilisée pour désigner les valeurs manquantes.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Carnet de notes pour accéder à Jupyter Notebook pour la pratique.

Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session et nous réglerons rapidement le problème pour vous.

Importez les bibliothèques nécessaires et créez un DataFrame

Pour commencer, nous devons importer les bibliothèques nécessaires - pandas et NumPy. Ensuite, nous allons créer un DataFrame avec quelques valeurs manquantes.

import pandas as pd
import numpy as np

## Créez un DataFrame avec des valeurs manquantes
df = pd.DataFrame(
   np.random.randn(5, 3),
   index=["a", "c", "e", "f", "h"],
   columns=["one", "two", "three"],
)
df["four"] = "bar"
df["five"] = df["one"] > 0
df2 = df.reindex(["a", "b", "c", "d", "e", "f", "g", "h"])

Découvrir les valeurs manquantes

Ensuite, nous utiliserons les fonctions isna et notna pour détecter les valeurs manquantes.

## Utilisez isna et notna pour détecter les valeurs manquantes
pd.isna(df2["one"])
df2["four"].notna()
df2.isna()

Insérer des données manquantes

Ici, nous allons voir comment insérer des valeurs manquantes dans nos données.

## Insérer des valeurs manquantes
s = pd.Series([1., 2., 3.])
s.loc[0] = None

Effectuer des calculs avec des données manquantes

Nous allons effectuer quelques calculs arithmétiques et statistiques de base avec des données manquantes.

## Effectuer des calculs avec des données manquantes
df["one"].sum()
df.mean(axis=1, numeric_only=True)
df.cumsum()

Supprimer les étiquettes d'axe avec des données manquantes

Nous allons apprendre à exclure les étiquettes avec des données manquantes à l'aide de dropna.

df.dropna(axis=0)
df.dropna(axis=1)
df["one"].dropna()

Interpoler les valeurs manquantes

Nous utiliserons la fonction interpolate pour remplir les valeurs manquantes dans un DataFrame.

df = pd.DataFrame(
   {
       "A": [1, 2.1, np.nan, 4.7, 5.6, 6.8],
       "B": [0.25, np.nan, np.nan, 4, 12.2, 14.4],
   }
)
df.interpolate()

Remplacer des valeurs génériques

Nous allons apprendre à remplacer des valeurs arbitraires par d'autres valeurs à l'aide de replace.

ser = pd.Series([0.0, 1.0, 2.0, 3.0, 4.0])
ser.replace(0, 5)

Comprendre le scalaire NA pour désigner les valeurs manquantes

Enfin, nous allons discuter du scalaire expérimental NA dans pandas qui peut être utilisé pour désigner les valeurs manquantes.

s = pd.Series([1, 2, None], dtype="Int64")
s

Sommaire

Dans ce laboratoire, nous avons appris à gérer les données manquantes à l'aide de pandas. Nous avons vu comment détecter, insérer, calculer avec et supprimer les données manquantes. Nous avons également appris à interpoler et remplacer les valeurs manquantes. Enfin, nous avons discuté du scalaire expérimental NA dans pandas pour désigner les valeurs manquantes. Cette connaissance sera très utile lors de la résolution de tâches d'analyse de données du monde réel où les données manquantes sont souvent un problème courant.