손글씨 숫자 데이터에 대한 K-평균 군집화

Beginner

This tutorial is from open-source community. Access the source code

소개

이 실습에서는 Python 의 scikit-learn 라이브러리를 사용하여 K-Means 군집화 알고리즘을 탐색합니다. 이 실습에서는 8x8 이미지의 숫자를 나타내는 64 개의 특징을 포함하는 손글씨 숫자 데이터셋을 사용하고, 이미지를 숫자가 나타내는 숫자에 따라 그룹화하려고 합니다. K-Means 의 서로 다른 초기화 방법을 비교하고 다양한 지표를 사용하여 군집화 성능을 평가할 것입니다.

VM 팁

VM 시작이 완료되면 왼쪽 상단 모서리를 클릭하여 Notebook 탭으로 전환하여 연습을 위한 Jupyter Notebook에 접근합니다.

때때로 Jupyter Notebook 이 완전히 로드되기까지 몇 초 정도 기다려야 할 수 있습니다. Jupyter Notebook 의 제한으로 인해 작업의 유효성 검사를 자동화할 수 없습니다.

학습 중 문제가 발생하면 Labby 에게 문의하십시오. 세션 후 피드백을 제공하면 문제를 신속하게 해결해 드리겠습니다.

데이터셋 로드

scikit-learn 의 load_digits() 함수를 사용하여 숫자 데이터셋을 로드합니다. 이 함수는 데이터셋의 특징과 레이블을 반환합니다.

import numpy as np
from sklearn.datasets import load_digits

data, labels = load_digits(return_X_y=True)
(n_samples, n_features), n_digits = data.shape, np.unique(labels).size

평가 벤치마크 정의

K-Means 의 서로 다른 초기화 방법을 비교하기 위한 벤치마크를 정의합니다. 이 벤치마크는 다음을 수행합니다.

  • StandardScaler를 사용하여 데이터를 스케일링하는 파이프라인 생성
  • 파이프라인 적합 (fitting) 시간 측정
  • 서로 다른 지표를 통해 얻은 군집화 성능 측정
from time import time
from sklearn import metrics
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

def bench_k_means(kmeans, name, data, labels):
    """KMeans 초기화 방법을 평가하기 위한 벤치마크.

    매개변수
    ----------
    kmeans : KMeans 인스턴스
        이미 초기화된 `KMeans` 인스턴스.
    name : str
        전략에 주어진 이름. 결과 표시에 사용됩니다.
    data : ndarray 형태 (n_samples, n_features)
        군집화할 데이터.
    labels : ndarray 형태 (n_samples,)
        일부 감독이 필요한 군집화 지표를 계산하는 데 사용되는 레이블.
    """
    t0 = time()
    estimator = make_pipeline(StandardScaler(), kmeans).fit(data)
    fit_time = time() - t0
    results = [name, fit_time, estimator[-1].inertia_]

    ## 오직 실제 레이블과 추정기 레이블만 필요한 지표 정의
    clustering_metrics = [
        metrics.homogeneity_score,
        metrics.completeness_score,
        metrics.v_measure_score,
        metrics.adjusted_rand_score,
        metrics.adjusted_mutual_info_score,
    ]
    results += [m(labels, estimator[-1].labels_) for m in clustering_metrics]

    ## 실루엣 점수는 전체 데이터셋이 필요합니다.
    results += [
        metrics.silhouette_score(
            data,
            estimator[-1].labels_,
            metric="euclidean",
            sample_size=300,
        )
    ]

    ## 결과 표시
    formatter_result = (
        "{:9s}\t{:.3f}s\t{:.0f}\t{:.3f}\t{:.3f}\t{:.3f}\t{:.3f}\t{:.3f}\t{:.3f}"
    )
    print(formatter_result.format(*results))

벤치마크 실행

K-Means 초기화를 위한 세 가지 접근 방식을 비교합니다.

  • k-means++를 사용한 초기화. 이 방법은 확률적이며, 초기화를 4 번 실행합니다.
  • 랜덤 초기화. 이 방법 또한 확률적이며, 초기화를 4 번 실행합니다.
  • PCA 투영을 기반으로 한 초기화. PCA 의 성분을 사용하여 K-Means 를 초기화합니다. 이 방법은 결정적이며 단일 초기화가 충분합니다.
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA

print(82 * "_")
print("init\t\ttime\tinertia\thomo\tcompl\tv-meas\tARI\tAMI\tsilhouette")

kmeans = KMeans(init="k-means++", n_clusters=n_digits, n_init=4, random_state=0)
bench_k_means(kmeans=kmeans, name="k-means++", data=data, labels=labels)

kmeans = KMeans(init="random", n_clusters=n_digits, n_init=4, random_state=0)
bench_k_means(kmeans=kmeans, name="random", data=data, labels=labels)

pca = PCA(n_components=n_digits).fit(data)
kmeans = KMeans(init=pca.components_, n_clusters=n_digits, n_init=1)
bench_k_means(kmeans=kmeans, name="PCA-based", data=data, labels=labels)

print(82 * "_")

PCA 축소 데이터에서 결과 시각화

PCA 를 사용하여 데이터셋을 2 차원으로 축소하고 이 새로운 공간에서 데이터와 클러스터를 플롯합니다.

import matplotlib.pyplot as plt

reduced_data = PCA(n_components=2).fit_transform(data)
kmeans = KMeans(init="k-means++", n_clusters=n_digits, n_init=4)
kmeans.fit(reduced_data)

## 메쉬의 간격. VQ 의 품질을 높이려면 감소.
h = 0.02  ## 메쉬 [x_min, x_max]x[y_min, y_max] 의 점.

## 결정 경계를 플롯합니다. 각 점에 색상을 할당합니다.
x_min, x_max = reduced_data[:, 0].min() - 1, reduced_data[:, 0].max() + 1
y_min, y_max = reduced_data[:, 1].min() - 1, reduced_data[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

## 메쉬의 각 점에 대한 레이블을 가져옵니다. 마지막으로 학습된 모델을 사용합니다.
Z = kmeans.predict(np.c_[xx.ravel(), yy.ravel()])

## 결과를 색상 플롯에 넣습니다.
Z = Z.reshape(xx.shape)
plt.figure(1)
plt.clf()
plt.imshow(
    Z,
    interpolation="nearest",
    extent=(xx.min(), xx.max(), yy.min(), yy.max()),
    cmap=plt.cm.Paired,
    aspect="auto",
    origin="lower",
)

plt.plot(reduced_data[:, 0], reduced_data[:, 1], "k.", markersize=2)
## 중심점을 흰색 X 로 플롯합니다.
centroids = kmeans.cluster_centers_
plt.scatter(
    centroids[:, 0],
    centroids[:, 1],
    marker="x",
    s=169,
    linewidths=3,
    color="w",
    zorder=10,
)
plt.title(
    "숫자 데이터셋에 대한 K-평균 군집화 (PCA 축소 데이터)\n"
    "중심점은 흰색 십자표시로 표시됨"
)
plt.xlim(x_min, x_max)
plt.ylim(y_min, y_max)
plt.xticks(())
plt.yticks(())
plt.show()

요약

이 실험에서는 K-평균 군집화 알고리즘을 탐색하고 손으로 쓴 숫자 데이터셋에 적용했습니다. 서로 다른 초기화 방법을 비교하고 다양한 지표를 사용하여 군집화 성능을 평가했습니다. 또한 PCA 를 사용하여 2 차원 공간에서 결과를 시각화했습니다.