Método Corr do DataFrame Pandas

Beginner

Introdução

Neste laboratório, aprenderemos como usar o método corr() na biblioteca pandas para calcular a correlação entre colunas em um DataFrame. Correlação é uma medida da relação linear entre duas variáveis, e nos ajuda a entender como as mudanças em uma variável afetam outra.

Dicas para a VM

Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.

Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.

Importando as Bibliotecas Necessárias

Primeiramente, precisamos importar as bibliotecas necessárias. Neste caso, precisamos apenas da biblioteca pandas.

import pandas as pd

Criar um DataFrame

Em seguida, vamos criar um DataFrame para trabalhar. Criaremos um DataFrame simples com colunas representando nomes, idades, alturas e pesos das pessoas.

chart = {
    'Name':['Chetan','yashas','yuvraj'],
    'Age':  [20, 25, 30],
    'Height': [155, 160, 175],
    'Weight': [55, 60, 75]
}

df = pd.DataFrame(chart)

Calcular a Correlação

Agora, podemos calcular a correlação entre as colunas do DataFrame usando o método corr(). Podemos fornecer um parâmetro method opcional para especificar o método de correlação a ser usado (pearson, kendall ou spearman). Se nenhum método for especificado, ele usará a correlação de Pearson por padrão.

Vamos calcular a correlação de Pearson entre as colunas do nosso DataFrame:

pearson_corr = df.corr(method='pearson')
print("Pearson Correlation:")
print(pearson_corr)

Visualizar a Correlação

Podemos visualizar a matriz de correlação usando um mapa de calor (heatmap). A biblioteca seaborn fornece uma maneira conveniente de criar mapas de calor.

import seaborn as sns
import matplotlib.pyplot as plt

sns.heatmap(pearson_corr, annot=True, cmap='coolwarm')
plt.title("Pearson Correlation Heatmap")
plt.show()

Calcular Correlação com Outros Métodos

Também podemos calcular a correlação usando os métodos de Kendall ou Spearman. Para fazer isso, basta especificar o parâmetro method de acordo. Vamos calcular a correlação de Kendall do nosso DataFrame:

kendall_corr = df.corr(method='kendall')
print("Kendall Correlation:")
print(kendall_corr)

Visualizar o Heatmap de Correlação com Outros Métodos

Da mesma forma, podemos criar um mapa de calor para visualizar as correlações de Kendall e Spearman:

sns.heatmap(kendall_corr, annot=True, cmap='coolwarm')
plt.title("Kendall Correlation Heatmap")
plt.show()

Repetir o Processo com a Correlação de Spearman

Finalmente, vamos calcular e visualizar a correlação de Spearman:

spearman_corr = df.corr(method='spearman')
print("Spearman Correlation:")
print(spearman_corr)
sns.heatmap(spearman_corr, annot=True, cmap='coolwarm')
plt.title("Spearman Correlation Heatmap")
plt.show()

Resumo

Neste laboratório, aprendemos como calcular e visualizar a correlação entre colunas de um DataFrame usando o método corr() no pandas. Exploramos diferentes métodos de correlação, incluindo Pearson, Kendall e Spearman, e usamos mapas de calor (heatmaps) para visualizar as matrizes de correlação. A análise de correlação nos ajuda a identificar relações entre variáveis e é útil em muitas áreas, como análise de dados, aprendizado de máquina (machine learning) e finanças.