Maîtriser l'analyse de corrélation des DataFrame de Pandas

Introduction

Dans ce laboratoire, nous allons apprendre à utiliser la méthode corr() de la bibliothèque pandas pour calculer la corrélation entre les colonnes d'un DataFrame. La corrélation est une mesure de la relation linéaire entre deux variables, et elle nous aide à comprendre comment les changements dans une variable affectent une autre.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Notebook pour accéder à Jupyter Notebook pour la pratique.

Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.

Importation des bibliothèques requises

Tout d'abord, nous devons importer les bibliothèques nécessaires. Dans ce cas, nous avons seulement besoin de la bibliothèque pandas.

import pandas as pd

Créer un DataFrame

Ensuite, créons un DataFrame avec lequel travailler. Nous allons créer un DataFrame simple avec des colonnes représentant les noms, les âges, les tailles et les poids de personnes.

chart = {
    'Name':['Chetan','yashas','yuvraj'],
    'Age':  [20, 25, 30],
    'Height': [155, 160, 175],
    'Weight': [55, 60, 75]
}

df = pd.DataFrame(chart)

Calculer la corrélation

Maintenant, nous pouvons calculer la corrélation entre les colonnes du DataFrame en utilisant la méthode corr(). Nous pouvons fournir un paramètre optionnel method pour spécifier la méthode de corrélation à utiliser (pearson, kendall ou spearman). Si aucune méthode n'est spécifiée, la corrélation de Pearson est utilisée par défaut.

Calculons la corrélation de Pearson entre les colonnes de notre DataFrame :

pearson_corr = df.corr(method='pearson')
print("Pearson Correlation:")
print(pearson_corr)

Visualiser la corrélation

Nous pouvons visualiser la matrice de corrélation à l'aide d'une heatmap. La bibliothèque seaborn fournit un moyen pratique de créer des heatmaps.

import seaborn as sns
import matplotlib.pyplot as plt

sns.heatmap(pearson_corr, annot=True, cmap='coolwarm')
plt.title("Pearson Correlation Heatmap")
plt.show()

Calculer la corrélation avec d'autres méthodes

Nous pouvons également calculer la corrélation en utilisant les méthodes de Kendall ou de Spearman. Pour ce faire, il suffit de spécifier le paramètre method en conséquence. Calculons la corrélation de Kendall de notre DataFrame :

kendall_corr = df.corr(method='kendall')
print("Kendall Correlation:")
print(kendall_corr)

Visualiser la heatmap de corrélation avec d'autres méthodes

De manière similaire, nous pouvons créer une heatmap pour visualiser les corrélations de Kendall et de Spearman :

sns.heatmap(kendall_corr, annot=True, cmap='coolwarm')
plt.title("Kendall Correlation Heatmap")
plt.show()

Répéter le processus avec la corrélation de Spearman

Enfin, calculons et visualisons la corrélation de Spearman :

spearman_corr = df.corr(method='spearman')
print("Spearman Correlation:")
print(spearman_corr)

sns.heatmap(spearman_corr, annot=True, cmap='coolwarm')
plt.title("Spearman Correlation Heatmap")
plt.show()

Résumé

Dans ce laboratoire, nous avons appris à calculer et à visualiser la corrélation entre les colonnes d'un DataFrame à l'aide de la méthode corr() dans pandas. Nous avons exploré différentes méthodes de corrélation, y compris Pearson, Kendall et Spearman, et utilisé des heatmaps pour visualiser les matrices de corrélation. L'analyse de corrélation nous aide à identifier les relations entre les variables et est utile dans de nombreux domaines, tels que l'analyse de données, l'apprentissage automatique et la finance.

Méthode corr() pour les DataFrame de Pandas