Introduction
Dans ce laboratoire, nous allons apprendre à utiliser la méthode corr() de la bibliothèque pandas pour calculer la corrélation entre les colonnes d'un DataFrame. La corrélation est une mesure de la relation linéaire entre deux variables, et elle nous aide à comprendre comment les changements dans une variable affectent une autre.
Conseils sur la machine virtuelle
Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Notebook pour accéder à Jupyter Notebook pour la pratique.
Parfois, vous devrez peut-être attendre quelques secondes pour que Jupyter Notebook ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations de Jupyter Notebook.
Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.
Importation des bibliothèques requises
Tout d'abord, nous devons importer les bibliothèques nécessaires. Dans ce cas, nous avons seulement besoin de la bibliothèque pandas.
import pandas as pd
Créer un DataFrame
Ensuite, créons un DataFrame avec lequel travailler. Nous allons créer un DataFrame simple avec des colonnes représentant les noms, les âges, les tailles et les poids de personnes.
chart = {
'Name':['Chetan','yashas','yuvraj'],
'Age': [20, 25, 30],
'Height': [155, 160, 175],
'Weight': [55, 60, 75]
}
df = pd.DataFrame(chart)
Calculer la corrélation
Maintenant, nous pouvons calculer la corrélation entre les colonnes du DataFrame en utilisant la méthode corr(). Nous pouvons fournir un paramètre optionnel method pour spécifier la méthode de corrélation à utiliser (pearson, kendall ou spearman). Si aucune méthode n'est spécifiée, la corrélation de Pearson est utilisée par défaut.
Calculons la corrélation de Pearson entre les colonnes de notre DataFrame :
pearson_corr = df.corr(method='pearson')
print("Pearson Correlation:")
print(pearson_corr)
Visualiser la corrélation
Nous pouvons visualiser la matrice de corrélation à l'aide d'une heatmap. La bibliothèque seaborn fournit un moyen pratique de créer des heatmaps.
import seaborn as sns
import matplotlib.pyplot as plt
sns.heatmap(pearson_corr, annot=True, cmap='coolwarm')
plt.title("Pearson Correlation Heatmap")
plt.show()
Calculer la corrélation avec d'autres méthodes
Nous pouvons également calculer la corrélation en utilisant les méthodes de Kendall ou de Spearman. Pour ce faire, il suffit de spécifier le paramètre method en conséquence. Calculons la corrélation de Kendall de notre DataFrame :
kendall_corr = df.corr(method='kendall')
print("Kendall Correlation:")
print(kendall_corr)
Visualiser la heatmap de corrélation avec d'autres méthodes
De manière similaire, nous pouvons créer une heatmap pour visualiser les corrélations de Kendall et de Spearman :
sns.heatmap(kendall_corr, annot=True, cmap='coolwarm')
plt.title("Kendall Correlation Heatmap")
plt.show()
Répéter le processus avec la corrélation de Spearman
Enfin, calculons et visualisons la corrélation de Spearman :
spearman_corr = df.corr(method='spearman')
print("Spearman Correlation:")
print(spearman_corr)
sns.heatmap(spearman_corr, annot=True, cmap='coolwarm')
plt.title("Spearman Correlation Heatmap")
plt.show()
Résumé
Dans ce laboratoire, nous avons appris à calculer et à visualiser la corrélation entre les colonnes d'un DataFrame à l'aide de la méthode corr() dans pandas. Nous avons exploré différentes méthodes de corrélation, y compris Pearson, Kendall et Spearman, et utilisé des heatmaps pour visualiser les matrices de corrélation. L'analyse de corrélation nous aide à identifier les relations entre les variables et est utile dans de nombreux domaines, tels que l'analyse de données, l'apprentissage automatique et la finance.