희소 역공분산 행렬 추정

Beginner

This tutorial is from open-source community. Access the source code

소개

이 실습에서는 소수의 샘플로부터 공분산 행렬과 희소 정밀도 행렬을 학습하는 방법을 GraphicalLasso 추정기를 사용하여 보여줍니다. 이 튜토리얼은 데이터 생성, 공분산 추정 및 결과 플롯팅을 다룹니다.

VM 팁

VM 시작이 완료되면 왼쪽 상단 모서리를 클릭하여 Notebook 탭으로 전환하여 연습을 위한 Jupyter Notebook에 접근합니다.

때때로 Jupyter Notebook 이 완전히 로드되기까지 몇 초 정도 기다려야 할 수 있습니다. Jupyter Notebook 의 제한으로 인해 작업 검증은 자동화될 수 없습니다.

학습 중 문제가 발생하면 Labby 에 문의하십시오. 세션 후 피드백을 제공하면 문제를 신속하게 해결해 드리겠습니다.

데이터 생성

첫 번째 단계는 데이터를 생성하는 것입니다. 이 경우 20 개의 특징을 가진 60 개의 샘플로 구성된 작은 데이터셋을 생성합니다. 유리한 복구 조건을 보장하기 위해 희소 역공분산 행렬을 사용합니다.

import numpy as np
from scipy import linalg
from sklearn.datasets import make_sparse_spd_matrix

n_samples = 60
n_features = 20

prng = np.random.RandomState(1)
prec = make_sparse_spd_matrix(
    n_features, alpha=0.98, smallest_coef=0.4, largest_coef=0.7, random_state=prng
)
cov = linalg.inv(prec)
d = np.sqrt(np.diag(cov))
cov /= d
cov /= d[:, np.newaxis]
prec *= d
prec *= d[:, np.newaxis]
X = prng.multivariate_normal(np.zeros(n_features), cov, size=n_samples)
X -= X.mean(axis=0)
X /= X.std(axis=0)

공분산 추정

두 번째 단계는 공분산을 추정하는 것입니다. 희소 정밀도 행렬을 학습하기 위해 GraphicalLassoCV 를 사용합니다. 또한 Ledoit-Wolf 추정기와 결과를 비교합니다.

from sklearn.covariance import GraphicalLassoCV, ledoit_wolf

emp_cov = np.dot(X.T, X) / n_samples

model = GraphicalLassoCV()
model.fit(X)
cov_ = model.covariance_
prec_ = model.precision_

lw_cov_, _ = ledoit_wolf(X)
lw_prec_ = linalg.inv(lw_cov_)

결과 플롯

세 번째 단계는 결과를 플롯하는 것입니다. 공분산과 정밀도를 플롯합니다. 또한 모델 선택 메트릭을 플롯합니다.

import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
plt.subplots_adjust(left=0.02, right=0.98)

## 공분산 플롯
covs = [
    ("Empirical", emp_cov),
    ("Ledoit-Wolf", lw_cov_),
    ("GraphicalLassoCV", cov_),
    ("True", cov),
]
vmax = cov_.max()
for i, (name, this_cov) in enumerate(covs):
    plt.subplot(2, 4, i + 1)
    plt.imshow(
        this_cov, interpolation="nearest", vmin=-vmax, vmax=vmax, cmap=plt.cm.RdBu_r
    )
    plt.xticks(())
    plt.yticks(())
    plt.title("%s covariance" % name)


## 정밀도 플롯
precs = [
    ("Empirical", linalg.inv(emp_cov)),
    ("Ledoit-Wolf", lw_prec_),
    ("GraphicalLasso", prec_),
    ("True", prec),
]
vmax = 0.9 * prec_.max()
for i, (name, this_prec) in enumerate(precs):
    ax = plt.subplot(2, 4, i + 5)
    plt.imshow(
        np.ma.masked_equal(this_prec, 0),
        interpolation="nearest",
        vmin=-vmax,
        vmax=vmax,
        cmap=plt.cm.RdBu_r,
    )
    plt.xticks(())
    plt.yticks(())
    plt.title("%s precision" % name)
    if hasattr(ax, "set_facecolor"):
        ax.set_facecolor(".7")
    else:
        ax.set_axis_bgcolor(".7")

## 모델 선택 메트릭 플롯
plt.figure(figsize=(4, 3))
plt.axes([0.2, 0.15, 0.75, 0.7])
plt.plot(model.cv_results_["alphas"], model.cv_results_["mean_test_score"], "o-")
plt.axvline(model.alpha_, color=".5")
plt.title("모델 선택")
plt.ylabel("교차 검증 점수")
plt.xlabel("alpha")

plt.show()

요약

이 실습에서는 소수의 샘플로부터 공분산과 희소 정밀도 행렬을 학습하는 방법을 GraphicalLasso 추정기를 사용하여 보여주었습니다. 이 튜토리얼에서는 데이터 생성, 공분산 추정 및 결과 플롯에 대해 다루었습니다.