가우시안 프로세스 분류 | 아이리스 데이터셋 | 머신러닝

소개

이 실습에서는 아이리스 데이터셋 (Iris dataset) 에 대한 가우시안 프로세스 분류 (Gaussian Process Classification, GPC) 를 사용하는 방법을 살펴봅니다. 아이리스 데이터셋은 세 가지 다른 아이리스 꽃 종의 꽃받침과 꽃잎 길이 및 너비에 대한 정보를 포함하는 유명한 데이터셋입니다. 우리는 분류 작업에 대한 확률적 접근 방식인 scikit-learn 을 사용하여 GPC 를 구현할 것입니다.

VM 팁

VM 시작이 완료되면 왼쪽 상단 모서리를 클릭하여 Notebook 탭으로 전환하여 연습을 위한 Jupyter Notebook에 접근합니다.

때때로 Jupyter Notebook 이 완전히 로드되기까지 몇 초 정도 기다려야 할 수 있습니다. Jupyter Notebook 의 제한으로 인해 작업의 유효성 검사를 자동화할 수 없습니다.

학습 중 문제가 발생하면 Labby 에게 문의하십시오. 세션 후 피드백을 제공하면 문제를 신속하게 해결해 드리겠습니다.

필요한 라이브러리 및 데이터셋 가져오기

먼저, 필요한 라이브러리를 가져오고 scikit-learn 에서 아이리스 데이터셋을 로드합니다.

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.gaussian_process import GaussianProcessClassifier
from sklearn.gaussian_process.kernels import RBF

iris = datasets.load_iris()
X = iris.data[:, :2]  ## 첫 두 개의 특징만 사용합니다.
y = np.array(iris.target, dtype=int)

커널 함수 정의

다음으로 커널 함수를 정의합니다. 이 예제에서는 Radial Basis Function(RBF) 커널을 사용합니다. 등방성 버전과 이방성 버전의 두 가지 RBF 커널 버전을 정의합니다.

kernel = 1.0 * RBF([1.0])
gpc_rbf_isotropic = GaussianProcessClassifier(kernel=kernel).fit(X, y)

kernel = 1.0 * RBF([1.0, 1.0])
gpc_rbf_anisotropic = GaussianProcessClassifier(kernel=kernel).fit(X, y)

그리드 생성

이제 그래프에 표시할 그리드를 생성합니다. 그리드는 그리드 상의 각 점에 대한 예측 확률을 표시하는 데 사용됩니다. 또한 메쉬의 간격 크기를 정의합니다.

h = 0.02  ## 메쉬의 간격 크기

x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

예측 확률 시각화

이제 메쉬 상의 각 점에 대한 예측 확률을 시각화합니다. 등방성 RBF 커널과 이방성 RBF 커널에 대한 두 개의 서브플롯을 생성합니다. predict_proba 메서드를 사용하여 메쉬 상의 각 점에 대한 예측 확률을 얻습니다. 그런 다음 메쉬 상에 예측 확률을 색상 플롯으로 표시합니다. 또한 각 아이리스 꽃 종에 대한 학습 데이터 포인트를 플롯합니다.

titles = ["Isotropic RBF", "Anisotropic RBF"]
plt.figure(figsize=(10, 5))
for i, clf in enumerate((gpc_rbf_isotropic, gpc_rbf_anisotropic)):
    ## 예측 확률을 플롯합니다. 이를 위해 메쉬 [x_min, m_max]x[y_min, y_max] 의 각 점에 색상을 할당합니다.
    plt.subplot(1, 2, i + 1)

    Z = clf.predict_proba(np.c_[xx.ravel(), yy.ravel()])

    ## 결과를 색상 플롯에 넣습니다.
    Z = Z.reshape((xx.shape[0], xx.shape[1], 3))
    plt.imshow(Z, extent=(x_min, x_max, y_min, y_max), origin="lower")

    ## 학습 데이터 포인트도 플롯합니다.
    plt.scatter(X[:, 0], X[:, 1], c=np.array(["r", "g", "b"])[y], edgecolors=(0, 0, 0))
    plt.xlabel("꽃받침 길이")
    plt.ylabel("꽃받침 너비")
    plt.xlim(xx.min(), xx.max())
    plt.ylim(yy.min(), yy.max())
    plt.xticks(())
    plt.yticks(())
    plt.title(
        "%s, LML: %.3f" % (titles[i], clf.log_marginal_likelihood(clf.kernel_.theta))
    )

plt.tight_layout()
plt.show()

요약

이 실험에서는 scikit-learn 을 사용하여 아이리스 데이터셋에 대한 가우시안 프로세스 분류 (GPC) 를 어떻게 사용하는지 살펴보았습니다. 등방성 버전과 이방성 버전의 두 가지 방사 기저 함수 (RBF) 커널을 정의했습니다. 그런 다음 메쉬를 생성하여 메쉬 상의 각 점에 대한 예측 확률을 플롯하고, 메쉬 상에 예측 확률을 색상 플롯으로 표시했습니다. 마지막으로 각 아이리스 꽃 종에 대한 학습 데이터 포인트를 플롯했습니다.