Pandas DataFrame 공분산 분석 마스터하기

소개

이 튜토리얼에서는 pandas 라이브러리의 DataFrame.cov() 메서드를 사용하여 DataFrame 의 열 간 공분산을 계산하는 방법을 배웁니다. 공분산은 두 개의 임의 변수 간의 관계를 측정하며, 두 변수가 얼마나 함께 변하는지를 나타냅니다.

VM 팁

VM 시작이 완료되면, 왼쪽 상단 모서리를 클릭하여 Notebook 탭으로 전환하여 실습을 위해 Jupyter Notebook에 접근하십시오.

때로는 Jupyter Notebook 이 로딩을 완료하는 데 몇 초 정도 기다려야 할 수도 있습니다. Jupyter Notebook 의 제한으로 인해 작업의 유효성 검사는 자동화될 수 없습니다.

학습 중 문제가 발생하면 언제든지 Labby 에게 문의하십시오. 세션 후 피드백을 제공해주시면 문제를 신속하게 해결해 드리겠습니다.

DataFrame 생성하기

먼저, 몇 가지 샘플 데이터로 DataFrame 을 생성해 보겠습니다. pd.DataFrame() 함수를 사용하여 DataFrame 객체를 생성합니다.

import pandas as pd

data = {'Name': ['Chetan', 'Yashas', 'Yuvraj'],
        'Age': [20, 25, 30],
        'Height': [155, 170, 165],
        'Weight': [59, 60, 75]}

df = pd.DataFrame(data)
print(df)

공분산 행렬 계산

다음으로, DataFrame.cov() 메서드를 사용하여 DataFrame 의 열에 대한 공분산 행렬을 계산할 수 있습니다. 공분산 행렬은 각 항목이 두 열 간의 공분산을 나타내는 행렬입니다.

covariance_matrix = df.cov()
print(covariance_matrix)

두 열의 공분산 계산

두 개의 특정 열 간의 공분산을 계산하는 데 관심이 있다면, 해당 열에 접근하여 cov() 메서드를 직접 적용하여 계산할 수 있습니다.

covariance = df['Height'].cov(df['Weight'])
print(covariance)

요약

이 튜토리얼에서는 pandas 에서 DataFrame.cov() 메서드를 사용하여 DataFrame 의 열 간의 공분산을 계산하는 방법을 배웠습니다. 또한 모든 열 쌍의 공분산 행렬을 계산하는 방법과 두 개의 특정 열 간의 공분산을 계산하는 방법을 살펴보았습니다. 공분산은 시간 경과에 따른 또는 다른 데이터 포인트 간의 다양한 측정값 간의 관계를 이해하는 데 도움이 될 수 있습니다.

Pandas DataFrame cov 메서드

소개

VM 팁

DataFrame 생성하기

공분산 행렬 계산

두 열의 공분산 계산

요약