Méthode pivot() pour les DataFrame Pandas

PythonPythonBeginner
Pratiquer maintenant

💡 Ce tutoriel est traduit par l'IA à partir de la version anglaise. Pour voir la version originale, vous pouvez cliquer ici

Introduction

Dans ce laboratoire, nous allons apprendre à utiliser la méthode pivot() de la bibliothèque Python Pandas. La méthode pivot() nous permet de transformer ou de redimensionner un DataFrame en modifiant l'organisation des valeurs d'index et de colonne.

Conseils pour la machine virtuelle (VM)

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer sur l'onglet Notebook et accéder à Jupyter Notebook pour pratiquer.

Parfois, vous devrez peut-être attendre quelques secondes que Jupyter Notebook ait terminé de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.

Si vous rencontrez des problèmes lors de votre apprentissage, n'hésitez pas à demander de l'aide à Labby. Donnez votre avis après la session, et nous résoudrons rapidement le problème pour vous.

Importation de pandas et création du DataFrame

  • Commencez par importer la bibliothèque pandas et créez un DataFrame en utilisant la fonction pd.DataFrame().
import pandas as pd

data = {
  'crop': ['Rice', 'Wheat', 'Rice', 'Wheat', 'Rice', 'Wheat'],
  'state': ['karnataka', 'karnataka', 'Tamilnadu', 'Tamilnadu', 'Kerala', 'Kerala'],
  'Temperature': [29, 29, 31, 31, 25, 25],
  'Humidity': [50, 50, 62, 62, 45, 45]
}

df = pd.DataFrame(data)
print(df)
  • Cela créera un DataFrame avec des colonnes pour 'crop' (culture), 'state' (état), 'Temperature' (température) et 'Humidity' (humidité).

Redimensionner le DataFrame en utilisant la méthode pivot()

  • Pour redimensionner le DataFrame, nous pouvons utiliser la méthode pivot() et spécifier les noms d'index et de colonne.
df_pivot = df.pivot(index='crop', columns='state')
print(df_pivot)
  • La méthode pivot() réorganisera le DataFrame, en utilisant 'crop' (culture) comme nouvel index et 'state' (état) comme nouvelle colonne. Le DataFrame résultant aura 'Temperature' (température) et 'Humidity' (humidité) comme colonnes pour chaque combinaison de 'crop' et 'state'.

Spécifier le paramètre values pour sélectionner des colonnes spécifiques

  • Si nous souhaitons seulement inclure des colonnes spécifiques dans le DataFrame redimensionné, nous pouvons utiliser le paramètre values dans la méthode pivot().
df_pivot_specific = df.pivot(index='crop', columns='state', values='Temperature')
print(df_pivot_specific)
  • Le DataFrame résultant n'inclura que la colonne 'Temperature' (température) pour chaque combinaison de 'crop' (culture) et 'state' (état).

Gérer les doublons dans le DataFrame

  • Si le DataFrame contient des doublons, la méthode pivot() lèvera une erreur ValueError. Dans de tels cas, nous devons nous assurer que le DataFrame ne contient pas d'entrées dupliquées avant de le redimensionner.
df_duplicated = pd.DataFrame({'crop': ['Rice', 'Rice', 'Wheat', 'Wheat', 'Rice', 'Wheat'],
                              'state': ['karnataka', 'karnataka', 'Tamilnadu', 'Tamilnadu', 'Kerala', 'Kerala'],
                              'Temperature': [29, 29, 31, 31, 25, 25],
                              'Humidity': [50, 50, 62, 62, 45, 45]})

df_duplicated_pivot = df_duplicated.pivot(index='crop', columns='state', values='Temperature')
print(df_duplicated_pivot)
  • Dans cet exemple, le DataFrame contient des entrées dupliquées pour la combinaison de 'crop' (culture) et 'state' (état), ce qui entraînera une erreur ValueError lors de l'utilisation de la méthode pivot().

Résumé

Ce laboratoire a couvert l'utilisation de base de la méthode pivot() dans la bibliothèque Python Pandas. La méthode pivot() nous permet de transformer ou de redimensionner un DataFrame en modifiant l'organisation des valeurs d'index et de colonne. Nous avons appris à redimensionner un DataFrame, à sélectionner des colonnes spécifiques et à gérer les doublons. La méthode pivot() est un outil puissant pour la manipulation et l'analyse de données.