Méthode DataFrame.diff() de Pandas

PythonPythonBeginner
Pratiquer maintenant

💡 Ce tutoriel est traduit par l'IA à partir de la version anglaise. Pour voir la version originale, vous pouvez cliquer ici

Introduction

La méthode Pandas DataFrame.diff() calcule la différence entre les éléments d'un DataFrame. Elle fournit la première différence discrète des éléments, en calculant la différence entre un élément d'un DataFrame et un autre élément du même DataFrame. Par défaut, la méthode calcule la différence par rapport à l'élément précédent de la ligne.

Conseils pour la machine virtuelle (VM)

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer sur l'onglet Notebook afin d'accéder à Jupyter Notebook pour pratiquer.

Parfois, vous devrez peut-être attendre quelques secondes que Jupyter Notebook ait terminé de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.

Si vous rencontrez des problèmes pendant votre apprentissage, n'hésitez pas à poser vos questions à Labby. Donnez votre avis après la session, et nous résoudrons rapidement le problème pour vous.

Importez les bibliothèques nécessaires

Pour utiliser la méthode DataFrame.diff(), nous devons d'abord importer la bibliothèque pandas :

import pandas as pd

Créez un DataFrame

Ensuite, créons un DataFrame que nous pourrons utiliser pour les exemples :

df = pd.DataFrame({'a': [1, 3, 8],'b': [3, 5, 8],'c': [16, 25, 36]})

Notre DataFrame a trois colonnes ('a', 'b', 'c') et trois lignes.

Calculez la différence avec la ligne précédente

Pour calculer la différence avec la ligne précédente, nous pouvons simplement appeler la méthode diff() sur notre DataFrame :

diff_previous_row = df.diff()

Cela calculera la différence entre chaque élément et l'élément précédent de la ligne.

Calculez la différence entre les colonnes précédentes

Si nous voulons calculer la différence entre les colonnes précédentes au lieu des lignes précédentes, nous pouvons spécifier le paramètre axis à 1 :

diff_previous_column = df.diff(axis=1)

Cela calculera la différence entre chaque élément et l'élément précédent de la colonne.

Calculez la différence avec une ligne précédente spécifique

Nous pouvons également calculer la différence avec une ligne précédente spécifique en spécifiant le paramètre periods. Par exemple, pour calculer la différence avec la deuxième ligne précédente, nous pouvons définir periods à 2 :

diff_second_previous_row = df.diff(periods=2)

Cela calculera la différence entre chaque élément et l'élément situé deux lignes avant.

Calculez la différence avec une colonne précédente spécifique

De même, nous pouvons calculer la différence avec une colonne précédente spécifique en spécifiant les paramètres periods et axis. Par exemple, pour calculer la différence avec la troisième colonne précédente, nous pouvons définir periods à 3 et axis à 1 :

diff_third_previous_column = df.diff(periods=3, axis=1)

Cela calculera la différence entre chaque élément et l'élément situé trois colonnes avant.

Résumé

La méthode DataFrame.diff() dans Pandas nous permet de calculer la différence entre les éléments d'un DataFrame. Nous pouvons calculer la différence avec les lignes précédentes ou les colonnes précédentes, ainsi qu'avec des lignes ou des colonnes précédentes spécifiques. Cette méthode est utile lors de l'analyse de données de séries temporelles ou lors de la comparaison de valeurs entre des lignes ou des colonnes consécutives. En utilisant la méthode diff(), nous pouvons facilement calculer les changements ou les différences dans notre DataFrame.