손글씨 숫자 데이터에 대한 K-평균 군집화 탐색

소개

이 실습에서는 Python 의 scikit-learn 라이브러리를 사용하여 K-Means 군집화 알고리즘을 탐색합니다. 이 실습에서는 8x8 이미지의 숫자를 나타내는 64 개의 특징을 포함하는 손글씨 숫자 데이터셋을 사용하고, 이미지를 숫자가 나타내는 숫자에 따라 그룹화하려고 합니다. K-Means 의 서로 다른 초기화 방법을 비교하고 다양한 지표를 사용하여 군집화 성능을 평가할 것입니다.

VM 팁

VM 시작이 완료되면 왼쪽 상단 모서리를 클릭하여 Notebook 탭으로 전환하여 연습을 위한 Jupyter Notebook에 접근합니다.

때때로 Jupyter Notebook 이 완전히 로드되기까지 몇 초 정도 기다려야 할 수 있습니다. Jupyter Notebook 의 제한으로 인해 작업의 유효성 검사를 자동화할 수 없습니다.

학습 중 문제가 발생하면 Labby 에게 문의하십시오. 세션 후 피드백을 제공하면 문제를 신속하게 해결해 드리겠습니다.

데이터셋 로드

scikit-learn 의 load_digits() 함수를 사용하여 숫자 데이터셋을 로드합니다. 이 함수는 데이터셋의 특징과 레이블을 반환합니다.

import numpy as np
from sklearn.datasets import load_digits

data, labels = load_digits(return_X_y=True)
(n_samples, n_features), n_digits = data.shape, np.unique(labels).size

평가 벤치마크 정의

K-Means 의 서로 다른 초기화 방법을 비교하기 위한 벤치마크를 정의합니다. 이 벤치마크는 다음을 수행합니다.

StandardScaler를 사용하여 데이터를 스케일링하는 파이프라인 생성
파이프라인 적합 (fitting) 시간 측정
서로 다른 지표를 통해 얻은 군집화 성능 측정

from time import time
from sklearn import metrics
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

def bench_k_means(kmeans, name, data, labels):
    """KMeans 초기화 방법을 평가하기 위한 벤치마크.

    매개변수
    ----------
    kmeans : KMeans 인스턴스
        이미 초기화된 `KMeans` 인스턴스.
    name : str
        전략에 주어진 이름. 결과 표시에 사용됩니다.
    data : ndarray 형태 (n_samples, n_features)
        군집화할 데이터.
    labels : ndarray 형태 (n_samples,)
        일부 감독이 필요한 군집화 지표를 계산하는 데 사용되는 레이블.
    """
    t0 = time()
    estimator = make_pipeline(StandardScaler(), kmeans).fit(data)
    fit_time = time() - t0
    results = [name, fit_time, estimator[-1].inertia_]

    ## 오직 실제 레이블과 추정기 레이블만 필요한 지표 정의
    clustering_metrics = [
        metrics.homogeneity_score,
        metrics.completeness_score,
        metrics.v_measure_score,
        metrics.adjusted_rand_score,
        metrics.adjusted_mutual_info_score,
    ]
    results += [m(labels, estimator[-1].labels_) for m in clustering_metrics]

    ## 실루엣 점수는 전체 데이터셋이 필요합니다.
    results += [
        metrics.silhouette_score(
            data,
            estimator[-1].labels_,
            metric="euclidean",
            sample_size=300,
        )
    ]

    ## 결과 표시
    formatter_result = (
        "{:9s}\t{:.3f}s\t{:.0f}\t{:.3f}\t{:.3f}\t{:.3f}\t{:.3f}\t{:.3f}\t{:.3f}"
    )
    print(formatter_result.format(*results))

벤치마크 실행

K-Means 초기화를 위한 세 가지 접근 방식을 비교합니다.

k-means++를 사용한 초기화. 이 방법은 확률적이며, 초기화를 4 번 실행합니다.
랜덤 초기화. 이 방법 또한 확률적이며, 초기화를 4 번 실행합니다.
PCA 투영을 기반으로 한 초기화. PCA 의 성분을 사용하여 K-Means 를 초기화합니다. 이 방법은 결정적이며 단일 초기화가 충분합니다.

from sklearn.cluster import KMeans
from sklearn.decomposition import PCA

print(82 * "_")
print("init\t\ttime\tinertia\thomo\tcompl\tv-meas\tARI\tAMI\tsilhouette")

kmeans = KMeans(init="k-means++", n_clusters=n_digits, n_init=4, random_state=0)
bench_k_means(kmeans=kmeans, name="k-means++", data=data, labels=labels)

kmeans = KMeans(init="random", n_clusters=n_digits, n_init=4, random_state=0)
bench_k_means(kmeans=kmeans, name="random", data=data, labels=labels)

pca = PCA(n_components=n_digits).fit(data)
kmeans = KMeans(init=pca.components_, n_clusters=n_digits, n_init=1)
bench_k_means(kmeans=kmeans, name="PCA-based", data=data, labels=labels)

print(82 * "_")

PCA 축소 데이터에서 결과 시각화

PCA 를 사용하여 데이터셋을 2 차원으로 축소하고 이 새로운 공간에서 데이터와 클러스터를 플롯합니다.

import matplotlib.pyplot as plt

reduced_data = PCA(n_components=2).fit_transform(data)
kmeans = KMeans(init="k-means++", n_clusters=n_digits, n_init=4)
kmeans.fit(reduced_data)

## 메쉬의 간격. VQ 의 품질을 높이려면 감소.
h = 0.02  ## 메쉬 [x_min, x_max]x[y_min, y_max] 의 점.

## 결정 경계를 플롯합니다. 각 점에 색상을 할당합니다.
x_min, x_max = reduced_data[:, 0].min() - 1, reduced_data[:, 0].max() + 1
y_min, y_max = reduced_data[:, 1].min() - 1, reduced_data[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

## 메쉬의 각 점에 대한 레이블을 가져옵니다. 마지막으로 학습된 모델을 사용합니다.
Z = kmeans.predict(np.c_[xx.ravel(), yy.ravel()])

## 결과를 색상 플롯에 넣습니다.
Z = Z.reshape(xx.shape)
plt.figure(1)
plt.clf()
plt.imshow(
    Z,
    interpolation="nearest",
    extent=(xx.min(), xx.max(), yy.min(), yy.max()),
    cmap=plt.cm.Paired,
    aspect="auto",
    origin="lower",
)

plt.plot(reduced_data[:, 0], reduced_data[:, 1], "k.", markersize=2)
## 중심점을 흰색 X 로 플롯합니다.
centroids = kmeans.cluster_centers_
plt.scatter(
    centroids[:, 0],
    centroids[:, 1],
    marker="x",
    s=169,
    linewidths=3,
    color="w",
    zorder=10,
)
plt.title(
    "숫자 데이터셋에 대한 K-평균 군집화 (PCA 축소 데이터)\n"
    "중심점은 흰색 십자표시로 표시됨"
)
plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)
plt.xticks(())
plt.yticks(())
plt.show()

요약

이 실험에서는 K-평균 군집화 알고리즘을 탐색하고 손으로 쓴 숫자 데이터셋에 적용했습니다. 서로 다른 초기화 방법을 비교하고 다양한 지표를 사용하여 군집화 성능을 평가했습니다. 또한 PCA 를 사용하여 2 차원 공간에서 결과를 시각화했습니다.