Pandas DataFrame の共分散分析をマスターする

はじめに

このチュートリアルでは、pandas ライブラリの DataFrame.cov() メソッドを使用して、DataFrame の列間の共分散を計算する方法を学びます。共分散は、2 つのランダム変数間の関係を測定し、それらがどれだけ一緒に変動するかを示します。

VM のヒント

VM の起動が完了したら、左上隅をクリックして ノートブック タブに切り替え、Jupyter Notebook を使用して練習します。

場合によっては、Jupyter Notebook が読み込み完了するまで数秒待つ必要があります。Jupyter Notebook の制限により、操作の検証を自動化することはできません。

学習中に問題が発生した場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。そうすれば、迅速に問題を解決します。

DataFrame を作成する

まず、サンプルデータを使って DataFrame を作成しましょう。DataFrame オブジェクトを作成するには、pd.DataFrame() 関数を使用します。

import pandas as pd

data = {'Name': ['Chetan', 'Yashas', 'Yuvraj'],
        'Age': [20, 25, 30],
        'Height': [155, 170, 165],
        'Weight': [59, 60, 75]}

df = pd.DataFrame(data)
print(df)

共分散行列を計算する

次に、DataFrame の列の共分散行列を計算するには、DataFrame.cov() メソッドを使用できます。共分散行列は、各エントリが 2 つの列間の共分散を表す行列です。

covariance_matrix = df.cov()
print(covariance_matrix)

2 つの列の共分散を計算する

2 つの特定の列間の共分散を計算したい場合は、それらの列にアクセスして、直接 cov() メソッドを適用することで行うことができます。

covariance = df['Height'].cov(df['Weight'])
print(covariance)

まとめ

このチュートリアルでは、pandas の DataFrame.cov() メソッドを使用して、DataFrame の列間の共分散を計算する方法を学びました。また、すべての列のペアの共分散行列を計算する方法と、2 つの特定の列間の共分散を計算する方法も見てきました。共分散は、時間や他の任意のデータポイントにわたる異なる測定値間の関係を理解するのに役立ちます。

Pandas DataFrame の cov メソッド

はじめに

VM のヒント

DataFrame を作成する

共分散行列を計算する

2 つの列の共分散を計算する

まとめ