共分散推定 | 統計分析 | ガウスデータ

はじめに

共分散推定は、統計解析における重要なタスクです。この実験では、共分散推定の 2 つの方法：Ledoit-Wolf と OAS を比較します。これら 2 つの方法の推定 MSE を比較するために、ガウス分布データを使用します。

VM のヒント

VM の起動が完了したら、左上隅をクリックしてノートブックタブに切り替え、Jupyter Notebook を開いて練習しましょう。

時々、Jupyter Notebook が読み込み完了するまで数秒待つ必要がある場合があります。Jupyter Notebook の制限により、操作の検証は自動化できません。

学習中に問題に遭遇した場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。

ライブラリのインポート

まず、この実験に必要なライブラリをインポートする必要があります。数値計算にはnumpyを、可視化にはmatplotlibを、共分散推定にはscikit-learnを使用します。

import numpy as np
import matplotlib.pyplot as plt
from scipy.linalg import toeplitz, cholesky
from sklearn.covariance import LedoitWolf, OAS

データの生成

次に、AR(1) 過程に従う共分散行列を持つガウス分布データを生成します。共分散行列を生成するために、scipy.linalg からの toeplitz 関数と cholesky 関数を使用します。

np.random.seed(0)

n_features = 100
r = 0.1
real_cov = toeplitz(r ** np.arange(n_features))
coloring_matrix = cholesky(real_cov)

MSE とシュリンクレッジの計算

シミュレーションデータを使って、Ledoit-Wolf 法と OAS 法を比較します。両方の方法の平均二乗誤差（MSE）とシュリンクレッジを計算します。

n_samples_range = np.arange(6, 31, 1)
repeat = 100
lw_mse = np.zeros((n_samples_range.size, repeat))
oa_mse = np.zeros((n_samples_range.size, repeat))
lw_shrinkage = np.zeros((n_samples_range.size, repeat))
oa_shrinkage = np.zeros((n_samples_range.size, repeat))

for i, n_samples in enumerate(n_samples_range):
    for j in range(repeat):
        X = np.dot(np.random.normal(size=(n_samples, n_features)), coloring_matrix.T)

        lw = LedoitWolf(store_precision=False, assume_centered=True)
        lw.fit(X)
        lw_mse[i, j] = lw.error_norm(real_cov, scaling=False)
        lw_shrinkage[i, j] = lw.shrinkage_

        oa = OAS(store_precision=False, assume_centered=True)
        oa.fit(X)
        oa_mse[i, j] = oa.error_norm(real_cov, scaling=False)
        oa_shrinkage[i, j] = oa.shrinkage_

結果のプロット

最後に、Ledoit-Wolf 法と OAS 法の MSE とシュリンクレッジを比較するために、結果をプロットします。

plt.subplot(2, 1, 1)
plt.errorbar(
    n_samples_range,
    lw_mse.mean(1),
    yerr=lw_mse.std(1),
    label="Ledoit-Wolf",
    color="navy",
    lw=2,
)
plt.errorbar(
    n_samples_range,
    oa_mse.mean(1),
    yerr=oa_mse.std(1),
    label="OAS",
    color="darkorange",
    lw=2,
)
plt.ylabel("二乗誤差")
plt.legend(loc="upper right")
plt.title("共分散推定器の比較")
plt.xlim(5, 31)

plt.subplot(2, 1, 2)
plt.errorbar(
    n_samples_range,
    lw_shrinkage.mean(1),
    yerr=lw_shrinkage.std(1),
    label="Ledoit-Wolf",
    color="navy",
    lw=2,
)
plt.errorbar(
    n_samples_range,
    oa_shrinkage.mean(1),
    yerr=oa_shrinkage.std(1),
    label="OAS",
    color="darkorange",
    lw=2,
)
plt.xlabel("n_samples")
plt.ylabel("シュリンクレッジ")
plt.legend(loc="lower right")
plt.ylim(plt.ylim()[0], 1.0 + (plt.ylim()[1] - plt.ylim()[0]) / 10.0)
plt.xlim(5, 31)

plt.show()

まとめ

この実験では、ガウス分布データを用いて共分散推定のための Ledoit-Wolf 法と OAS 法を比較しました。両方の方法の MSE とシュリンクレッジをプロットし、データがガウス分布であるという仮定の下で、OAS 法がより良い収束性を持つことがわかりました。