Méthode isnull du DataFrame Pandas

PandasPandasBeginner
Pratiquer maintenant

💡 Ce tutoriel est traduit par l'IA à partir de la version anglaise. Pour voir la version originale, vous pouvez cliquer ici

Introduction

Dans ce laboratoire, nous allons apprendre à utiliser la méthode DataFrame.isnull() dans pandas. Cette méthode est utilisée pour détecter les valeurs manquantes dans un DataFrame. En appliquant cette méthode à un DataFrame, elle renvoie un DataFrame de valeurs booléennes, où True indique que l'élément est une valeur nulle et False indique que l'élément n'est pas une valeur nulle. Il est important de noter que cette méthode ne considère pas les chaînes de caractères vides ou numpy.inf comme valeurs nulles.

Conseils sur la VM

Une fois le démarrage de la VM terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Notebook pour accéder à Jupyter Notebook pour la pratique.

Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez des commentaires après la session, et nous résoudrons rapidement le problème pour vous.


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL pandas(("Pandas")) -.-> pandas/DataCleaningGroup(["Data Cleaning"]) python(("Python")) -.-> python/ModulesandPackagesGroup(["Modules and Packages"]) python(("Python")) -.-> python/PythonStandardLibraryGroup(["Python Standard Library"]) python(("Python")) -.-> python/DataScienceandMachineLearningGroup(["Data Science and Machine Learning"]) python(("Python")) -.-> python/BasicConceptsGroup(["Basic Concepts"]) pandas(("Pandas")) -.-> pandas/DataManipulationGroup(["Data Manipulation"]) python/BasicConceptsGroup -.-> python/booleans("Booleans") pandas/DataManipulationGroup -.-> pandas/change_data_types("Changing Data Types") pandas/DataCleaningGroup -.-> pandas/handle_missing_values("Handling Missing Values") python/ModulesandPackagesGroup -.-> python/using_packages("Using Packages") python/PythonStandardLibraryGroup -.-> python/data_collections("Data Collections") python/PythonStandardLibraryGroup -.-> python/data_serialization("Data Serialization") python/DataScienceandMachineLearningGroup -.-> python/data_analysis("Data Analysis") subgraph Lab Skills python/booleans -.-> lab-68641{{"Méthode isnull du DataFrame Pandas"}} pandas/change_data_types -.-> lab-68641{{"Méthode isnull du DataFrame Pandas"}} pandas/handle_missing_values -.-> lab-68641{{"Méthode isnull du DataFrame Pandas"}} python/using_packages -.-> lab-68641{{"Méthode isnull du DataFrame Pandas"}} python/data_collections -.-> lab-68641{{"Méthode isnull du DataFrame Pandas"}} python/data_serialization -.-> lab-68641{{"Méthode isnull du DataFrame Pandas"}} python/data_analysis -.-> lab-68641{{"Méthode isnull du DataFrame Pandas"}} end

Créer un DataFrame

Commenceons par créer un DataFrame avec quelques valeurs manquantes. Nous utiliserons la fonction pd.DataFrame de pandas et la constante np.nan de numpy.

## Importing pandas as pd
import pandas as pd
## Importing numpy as np
import numpy as np

## Creating the DataFrame
df = pd.DataFrame([(0.0, np.nan, -1.0, 1.0), (np.nan, 2.0, np.nan, np.nan), (2.0, 3.0, np.nan, 9.0)], columns=list('abcd'))

Cela créera un DataFrame avec quatre colonnes ('a', 'b', 'c', 'd') et trois lignes. Le DataFrame contient des valeurs manquantes représentées par np.nan.

Découvrir les valeurs manquantes

Maintenant, nous allons utiliser la méthode DataFrame.isnull() pour détecter les valeurs manquantes dans le DataFrame.

## Detecting missing values in the DataFrame
missing_values = df.isnull()

## Printing the DataFrame with missing values
print(missing_values)

Cela renverra un DataFrame composé de valeurs booléennes pour chaque élément du DataFrame d'origine. Les valeurs True indiquent que l'élément correspondant est une valeur manquante (np.nan), et les valeurs False indiquent que l'élément n'est pas une valeur manquante.

Considérer les chaînes de caractères vides comme des valeurs manquantes

Par défaut, la méthode DataFrame.isnull() ne considère pas les chaînes de caractères vides comme des valeurs manquantes. Si vous voulez considérer les chaînes de caractères vides comme des valeurs manquantes, vous pouvez les remplacer par np.nan avant d'utiliser la méthode.

## Replacing empty strings with np.nan
df = df.replace('', np.nan)

## Detecting missing values in the DataFrame
missing_values = df.isnull()

## Printing the DataFrame with missing values
print(missing_values)

Cela considérera désormais les chaînes de caractères vides comme des valeurs manquantes et renverra un DataFrame avec des valeurs booléennes indiquant la présence de valeurs manquantes.

Récapitulatif

Dans ce laboratoire, nous avons appris à utiliser la méthode DataFrame.isnull() dans pandas pour détecter les valeurs manquantes dans un DataFrame. Nous avons vu qu'elle renvoie un DataFrame de valeurs booléennes, où True indique une valeur manquante et False indique une valeur non manquante. Nous avons également vu que, par défaut, les chaînes de caractères vides ne sont pas considérées comme des valeurs manquantes, mais qu'elles peuvent être traitées comme telles en les remplaçant par np.nan avant d'utiliser la méthode. Cette méthode est utile pour les tâches de nettoyage et de prétraitement des données dans les projets d'analyse de données et d'apprentissage automatique.