Méthode DataFrame.nunique() de Pandas

Beginner

Introduction

Dans ce laboratoire, nous allons apprendre à utiliser la méthode DataFrame.nunique() de pandas pour Python. Cette méthode est utilisée pour compter le nombre d'observations distinctes ou uniques dans un DataFrame pandas.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Carnet de notes pour accéder à Jupyter Notebook pour la pratique.

Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous réglerons rapidement le problème pour vous.

Importer la bibliothèque pandas

Avant de commencer, nous devons importer la bibliothèque pandas, qui est utilisée pour la manipulation et l'analyse de données. Nous pouvons l'importer en utilisant le code suivant :

import pandas as pd

Créer un DataFrame

Créeons un DataFrame d'échantillonnage avec lequel travailler. Nous utiliserons la fonction pd.DataFrame() pour créer un DataFrame avec trois colonnes, A, B et C, et trois lignes de données. Chaque colonne aura quelques valeurs dupliquées.

df = pd.DataFrame({'A': [1, 2, 3], 'B': [1, 1, 1], 'C': [2, 5, 5]})

Compter les valeurs uniques dans le DataFrame

Maintenant, utilisons la méthode DataFrame.nunique() pour compter le nombre de valeurs uniques dans le DataFrame. Nous pouvons spécifier le paramètre axis comme étant "0" pour compter les valeurs uniques sur l'axe des index (colonnes), ou "1" pour compter les valeurs uniques sur l'axe des colonnes (lignes).

print("Nombre de valeurs uniques dans chaque colonne:")
print(df.nunique(axis=0))

print("Nombre de valeurs uniques dans chaque ligne:")
print(df.nunique(axis=1))

Gérer les valeurs nulles

Par défaut, la méthode DataFrame.nunique() ne prend pas en compte les valeurs nulles dans les comptages. Si une colonne contient des valeurs nulles, elle sera comptée comme "0". Créons un autre DataFrame avec quelques valeurs nulles et comptons à nouveau les valeurs uniques.

df = pd.DataFrame({'A': [1, None, 3], 'B': [1, None, 1], 'C': [2, None, 5]})

Compter les valeurs uniques avec des valeurs nulles

Comptons les valeurs uniques dans ce nouveau DataFrame, y compris les valeurs nulles.

print("Nombre de valeurs uniques dans chaque ligne avec des valeurs nulles:")
print(df.nunique(axis=1))

Résumé

Dans ce laboratoire, nous avons appris à utiliser la méthode DataFrame.nunique() dans pandas pour compter le nombre de valeurs uniques dans un DataFrame. Nous avons également appris à gérer les valeurs nulles et à compter les valeurs uniques y compris les valeurs nulles. Cette méthode est utile pour analyser des ensembles de données et comprendre la distribution des valeurs dans un DataFrame.