소개
이 튜토리얼에서는 pandas 라이브러리의 DataFrame.cov() 메서드를 사용하여 DataFrame 의 열 간 공분산을 계산하는 방법을 배웁니다. 공분산은 두 개의 임의 변수 간의 관계를 측정하며, 두 변수가 얼마나 함께 변하는지를 나타냅니다.
VM 팁
VM 시작이 완료되면, 왼쪽 상단 모서리를 클릭하여 Notebook 탭으로 전환하여 실습을 위해 Jupyter Notebook에 접근하십시오.
때로는 Jupyter Notebook 이 로딩을 완료하는 데 몇 초 정도 기다려야 할 수도 있습니다. Jupyter Notebook 의 제한으로 인해 작업의 유효성 검사는 자동화될 수 없습니다.
학습 중 문제가 발생하면 언제든지 Labby 에게 문의하십시오. 세션 후 피드백을 제공해주시면 문제를 신속하게 해결해 드리겠습니다.
DataFrame 생성하기
먼저, 몇 가지 샘플 데이터로 DataFrame 을 생성해 보겠습니다. pd.DataFrame() 함수를 사용하여 DataFrame 객체를 생성합니다.
import pandas as pd
data = {'Name': ['Chetan', 'Yashas', 'Yuvraj'],
'Age': [20, 25, 30],
'Height': [155, 170, 165],
'Weight': [59, 60, 75]}
df = pd.DataFrame(data)
print(df)
공분산 행렬 계산
다음으로, DataFrame.cov() 메서드를 사용하여 DataFrame 의 열에 대한 공분산 행렬을 계산할 수 있습니다. 공분산 행렬은 각 항목이 두 열 간의 공분산을 나타내는 행렬입니다.
covariance_matrix = df.cov()
print(covariance_matrix)
두 열의 공분산 계산
두 개의 특정 열 간의 공분산을 계산하는 데 관심이 있다면, 해당 열에 접근하여 cov() 메서드를 직접 적용하여 계산할 수 있습니다.
covariance = df['Height'].cov(df['Weight'])
print(covariance)
요약
이 튜토리얼에서는 pandas 에서 DataFrame.cov() 메서드를 사용하여 DataFrame 의 열 간의 공분산을 계산하는 방법을 배웠습니다. 또한 모든 열 쌍의 공분산 행렬을 계산하는 방법과 두 개의 특정 열 간의 공분산을 계산하는 방법을 살펴보았습니다. 공분산은 시간 경과에 따른 또는 다른 데이터 포인트 간의 다양한 측정값 간의 관계를 이해하는 데 도움이 될 수 있습니다.