희소성을 고려한 선형 회귀 예제

Beginner

This tutorial is from open-source community. Access the source code

소개

이 실험은 scikit-learn 의 당뇨병 데이터셋을 사용하여 희소성을 고려한 선형 회귀를 수행하는 방법을 보여줍니다. 데이터셋의 두 가지 특징만을 사용하여 회귀를 수행하고, 희소성 개념을 설명하기 위해 결과를 시각화합니다.

VM 팁

VM 시작이 완료되면 왼쪽 상단 모서리를 클릭하여 Notebook 탭으로 전환하여 Jupyter Notebook을 연습에 사용할 수 있습니다.

때때로 Jupyter Notebook 이 완전히 로드되기까지 몇 초 정도 기다려야 할 수 있습니다. Jupyter Notebook 의 제한으로 인해 작업의 유효성 검사는 자동화될 수 없습니다.

학습 중 문제가 발생하면 Labby 에게 문의하십시오. 세션 후 피드백을 제공하면 문제를 신속하게 해결해 드리겠습니다.

당뇨병 데이터셋 로드

먼저, scikit-learn 에서 당뇨병 데이터셋을 로드하고 학습 및 테스트 데이터셋으로 분할합니다.

from sklearn import datasets
import numpy as np

X, y = datasets.load_diabetes(return_X_y=True)
indices = (0, 1)

X_train = X[:-20, indices]
X_test = X[-20:, indices]
y_train = y[:-20]
y_test = y[-20:]

선형 회귀 모델 학습

다음으로, 학습 데이터셋에 선형 회귀 모델을 적합합니다.

from sklearn import linear_model

ols = linear_model.LinearRegression()
_ = ols.fit(X_train, y_train)

결과 플롯

마지막으로, 희소성 (sparsity) 개념을 보여주기 위해 세 가지 다른 시각에서 결과를 플롯합니다.

import matplotlib.pyplot as plt

## matplotlib < 3.2 에서 3 차원 투영을 위해 필요하지만 사용되지 않는 임포트
import mpl_toolkits.mplot3d  ## noqa: F401


def plot_figs(fig_num, elev, azim, X_train, clf):
    fig = plt.figure(fig_num, figsize=(4, 3))
    plt.clf()
    ax = fig.add_subplot(111, projection="3d", elev=elev, azim=azim)

    ax.scatter(X_train[:, 0], X_train[:, 1], y_train, c="k", marker="+")
    ax.plot_surface(
        np.array([[-0.1, -0.1], [0.15, 0.15]]),
        np.array([[-0.1, 0.15], [-0.1, 0.15]]),
        clf.predict(
            np.array([[-0.1, -0.1, 0.15, 0.15], [-0.1, 0.15, -0.1, 0.15]]).T
        ).reshape((2, 2)),
        alpha=0.5,
    )
    ax.set_xlabel("X_1")
    ax.set_ylabel("X_2")
    ax.set_zlabel("Y")
    ax.xaxis.set_ticklabels([])
    ax.yaxis.set_ticklabels([])
    ax.zaxis.set_ticklabels([])


## 서로 다른 시각에서 세 개의 다른 그림 생성
elev = 43.5
azim = -110
plot_figs(1, elev, azim, X_train, ols)

elev = -0.5
azim = 0
plot_figs(2, elev, azim, X_train, ols)

elev = -0.5
azim = 90
plot_figs(3, elev, azim, X_train, ols)

plt.show()

요약

이 실험에서는 scikit-learn 의 당뇨병 데이터셋을 사용하여 희소성 (sparsity) 을 고려한 선형 회귀를 수행하는 방법을 보여주었습니다. 데이터셋의 두 개의 특징만을 사용하여 모델을 학습하고, 결과를 플롯하여 희소성 개념을 시각적으로 설명했습니다.