Méthode de comptage dans un DataFrame Pandas

Beginner

Introduction

Dans ce laboratoire, nous allons apprendre à utiliser la méthode count() de la classe Pandas DataFrame. La méthode count() est utilisée pour compter le nombre de valeurs non nulles dans un DataFrame, soit pour chaque colonne, soit pour chaque ligne.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Notebook pour accéder à Jupyter Notebook pour la pratique.

Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.

Importer les bibliothèques nécessaires

Tout d'abord, importons les bibliothèques nécessaires pour ce laboratoire :

import pandas as pd
import numpy as np

Créer un DataFrame

Ensuite, créons un DataFrame que nous utiliserons pour les exemples de ce laboratoire. Notre DataFrame contiendra des informations sur les étudiants, telles que leurs noms, leurs numéros d'inscription, leurs matières et leurs notes.

df = pd.DataFrame([
    ['Abhishek', '101', 'Science', 90],
    ['Anurag', '102', None, 85]
], columns=['Name', 'Roll No', 'Subject', 'Marks'])

Compter les valeurs non nulles pour chaque colonne

Pour compter le nombre de valeurs non nulles pour chaque colonne dans le DataFrame, nous pouvons utiliser la méthode count() sans aucun paramètre. Cela renverra un objet Series où l'index représente les noms de colonnes et les valeurs représentent le comptage des valeurs non nulles dans chaque colonne.

column_counts = df.count()
print(column_counts)

Sortie :

Name       2
Roll No    2
Subject    1
Marks      2
dtype: int64

Compter les valeurs non nulles pour chaque ligne

Pour compter le nombre de valeurs non nulles pour chaque ligne dans le DataFrame, nous pouvons utiliser la méthode count() avec le paramètre axis défini sur 1. Cela renverra un objet Series où l'index représente les numéros de ligne et les valeurs représentent le comptage des valeurs non nulles dans chaque ligne.

row_counts = df.count(axis=1)
print(row_counts)

Sortie :

0    4
1    3
dtype: int64

Compter les valeurs numériques non nulles pour chaque ligne

Si nous voulons compter uniquement les valeurs numériques non nulles pour chaque ligne, nous pouvons utiliser la méthode count() avec le paramètre numeric_only défini sur True. Cela comptera uniquement les colonnes avec des types de données numériques (float, int) et exclura les colonnes avec des types de données non numériques (objet).

numeric_counts = df.count(numeric_only=True)
print(numeric_counts)

Sortie :

Roll No    2
Marks      2
dtype: int64

Résumé

Félicitations ! Vous avez réussi à compléter ce laboratoire sur la méthode count() du DataFrame Pandas. Dans ce laboratoire, vous avez appris à compter le nombre de valeurs non nulles dans un DataFrame pour chaque colonne ou ligne en utilisant la méthode count(). Vous avez également appris à compter uniquement les valeurs numériques non nulles en utilisant le paramètre numeric_only. Continuez à pratiquer et à explorer les différentes méthodes de la bibliothèque Pandas pour devenir plus compétent dans l'analyse et la manipulation de données avec Python. Bonne programmation !