Introdução
Neste tutorial, aprenderemos como usar o método DataFrame.cov() na biblioteca pandas para calcular a covariância entre colunas em um DataFrame. A covariância mede a relação entre duas variáveis aleatórias e indica o quanto elas variam juntas.
Dicas para a VM (Máquina Virtual)
Após a inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook e acessar o Jupyter Notebook para praticar.
Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido às limitações do Jupyter Notebook.
Se você enfrentar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão, e resolveremos o problema prontamente para você.
Criar um DataFrame
Primeiramente, vamos criar um DataFrame com alguns dados de exemplo. Usaremos a função pd.DataFrame() para criar um objeto DataFrame.
import pandas as pd
data = {'Name': ['Chetan', 'Yashas', 'Yuvraj'],
'Age': [20, 25, 30],
'Height': [155, 170, 165],
'Weight': [59, 60, 75]}
df = pd.DataFrame(data)
print(df)
Calcular a Matriz de Covariância
Em seguida, podemos usar o método DataFrame.cov() para calcular a matriz de covariância das colunas no DataFrame. A matriz de covariância é uma matriz na qual cada entrada representa a covariância entre duas colunas.
covariance_matrix = df.cov()
print(covariance_matrix)
Calcular a Covariância de Duas Colunas
Se estivermos interessados em calcular a covariância entre duas colunas específicas, podemos fazê-lo acessando essas colunas e aplicando o método cov() diretamente a elas.
covariance = df['Height'].cov(df['Weight'])
print(covariance)
Resumo
Neste tutorial, aprendemos como usar o método DataFrame.cov() no pandas para calcular a covariância entre colunas em um DataFrame. Também vimos como calcular a matriz de covariância de todos os pares de colunas e como calcular a covariância entre duas colunas específicas. A covariância pode nos ajudar a entender a relação entre diferentes medidas ao longo do tempo ou em quaisquer outros pontos de dados.