Dominando el Análisis de Correlación en DataFrame de Pandas

Introducción

En este laboratorio, aprenderemos a usar el método corr() de la biblioteca pandas para calcular la correlación entre columnas en un DataFrame. La correlación es una medida de la relación lineal entre dos variables y nos ayuda a entender cómo los cambios en una variable afectan a otra.

Consejos sobre la VM

Una vez que se haya iniciado la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.

A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.

Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje sus comentarios después de la sesión y lo resolveremos rápidamente para usted.

Importando las bibliotecas necesarias

Primero, necesitamos importar las bibliotecas necesarias. En este caso, solo necesitamos la biblioteca pandas.

import pandas as pd

Crear un DataFrame

A continuación, creemos un DataFrame con el que trabajar. Crearemos un DataFrame simple con columnas que representen los nombres, las edades, las alturas y los pesos de las personas.

chart = {
    'Name':['Chetan','yashas','yuvraj'],
    'Age':  [20, 25, 30],
    'Height': [155, 160, 175],
    'Weight': [55, 60, 75]
}

df = pd.DataFrame(chart)

Calcular la correlación

Ahora, podemos calcular la correlación entre las columnas del DataFrame utilizando el método corr(). Podemos proporcionar un parámetro method opcional para especificar el método de correlación a utilizar (pearson, kendall o spearman). Si no se especifica ningún método, el valor predeterminado es la correlación de Pearson.

Vamos a calcular la correlación de Pearson entre las columnas de nuestro DataFrame:

pearson_corr = df.corr(method='pearson')
print("Pearson Correlation:")
print(pearson_corr)

Visualizar la correlación

Podemos visualizar la matriz de correlación utilizando un mapa de calor. La biblioteca seaborn proporciona una forma conveniente de crear mapas de calor.

import seaborn as sns
import matplotlib.pyplot as plt

sns.heatmap(pearson_corr, annot=True, cmap='coolwarm')
plt.title("Pearson Correlation Heatmap")
plt.show()

Calcular la correlación con otros métodos

También podemos calcular la correlación utilizando los métodos de Kendall o Spearman. Para hacer esto, simplemente especifique el parámetro method en consecuencia. Vamos a calcular la correlación de Kendall de nuestro DataFrame:

kendall_corr = df.corr(method='kendall')
print("Kendall Correlation:")
print(kendall_corr)

Visualizar el mapa de calor de correlación con otros métodos

Del mismo modo, podemos crear un mapa de calor para visualizar las correlaciones de Kendall y Spearman:

sns.heatmap(kendall_corr, annot=True, cmap='coolwarm')
plt.title("Kendall Correlation Heatmap")
plt.show()

Repetir el proceso con la correlación de Spearman

Por último, vamos a calcular y visualizar la correlación de Spearman:

spearman_corr = df.corr(method='spearman')
print("Spearman Correlation:")
print(spearman_corr)

sns.heatmap(spearman_corr, annot=True, cmap='coolwarm')
plt.title("Spearman Correlation Heatmap")
plt.show()

Resumen

En este laboratorio, aprendimos cómo calcular y visualizar la correlación entre las columnas de un DataFrame utilizando el método corr() en pandas. Exploramos diferentes métodos de correlación, incluyendo Pearson, Kendall y Spearman, y utilizamos mapas de calor para visualizar las matrices de correlación. El análisis de correlación nos ayuda a identificar relaciones entre variables y es útil en muchas áreas, como el análisis de datos, el aprendizaje automático y las finanzas.

Método corr() en DataFrame de Pandas