OPTICS 군집화 알고리즘 마스터하기

소개

이 실습에서는 scikit-learn 라이브러리를 사용하여 OPTICS 군집화 알고리즘을 보여줍니다. OPTICS 는 Ordering Points To Identify the Clustering Structure 의 약자로, 높은 밀도의 핵심 샘플을 찾아 그로부터 군집을 확장하는 밀도 기반 군집화 알고리즘입니다. 이 실습에서는 샘플 데이터를 생성하고, 도달 가능성 플롯을 그리고, DBSCAN 을 사용하여 데이터를 군집화할 것입니다.

VM 팁

VM 시작이 완료되면 왼쪽 상단 모서리를 클릭하여 Notebook 탭으로 전환하여 Jupyter Notebook을 연습에 사용할 수 있습니다.

때때로 Jupyter Notebook 이 완전히 로드되기까지 몇 초 정도 기다려야 할 수 있습니다. Jupyter Notebook 의 제한으로 인해 작업의 유효성 검사는 자동화될 수 없습니다.

학습 중 문제가 발생하면 Labby 에게 문의하십시오. 세션 후 피드백을 제공하면 문제를 신속하게 해결해 드리겠습니다.

라이브러리 가져오기

이 실습에서는 이 실습에 필요한 라이브러리 - numpy, matplotlib.pyplot, 그리고 scikit-learn 의 OPTICS 와 cluster_optics_dbscan 을 가져올 것입니다.

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import OPTICS, cluster_optics_dbscan

샘플 데이터 생성

군집화를 위해 샘플 데이터를 생성합니다. 이 예제에서는 numpy 를 사용하여 서로 다른 밀도를 가진 여섯 개의 군집을 생성합니다.

np.random.seed(0)
n_points_per_cluster = 250

C1 = [-5, -2] + 0.8 * np.random.randn(n_points_per_cluster, 2)
C2 = [4, -1] + 0.1 * np.random.randn(n_points_per_cluster, 2)
C3 = [1, -2] + 0.2 * np.random.randn(n_points_per_cluster, 2)
C4 = [-2, 3] + 0.3 * np.random.randn(n_points_per_cluster, 2)
C5 = [3, -2] + 1.6 * np.random.randn(n_points_per_cluster, 2)
C6 = [5, 6] + 2 * np.random.randn(n_points_per_cluster, 2)
X = np.vstack((C1, C2, C3, C4, C5, C6))

OPTICS 군집화 알고리즘 실행

이제 생성된 데이터에 OPTICS 군집화 알고리즘을 적용합니다. 이 예제에서는 min_samples=50, xi=0.05, min_cluster_size=0.05로 설정합니다.

clust = OPTICS(min_samples=50, xi=0.05, min_cluster_size=0.05)
clust.fit(X)

DBSCAN 을 이용한 데이터 군집화

다양한 epsilon 값으로 DBSCAN 을 사용하여 데이터를 군집화합니다. 이 예제에서는 epsilon 을 0.5 와 2 로 설정합니다.

labels_050 = cluster_optics_dbscan(
    reachability=clust.reachability_,
    core_distances=clust.core_distances_,
    ordering=clust.ordering_,
    eps=0.5,
)
labels_200 = cluster_optics_dbscan(
    reachability=clust.reachability_,
    core_distances=clust.core_distances_,
    ordering=clust.ordering_,
    eps=2,
)

도달 가능성 플롯 및 군집화 결과 시각화

OPTICS 및 다양한 epsilon 값의 DBSCAN 에 대한 도달 가능성 플롯과 군집화 결과를 시각화합니다.

space = np.arange(len(X))
reachability = clust.reachability_[clust.ordering_]
labels = clust.labels_[clust.ordering_]

plt.figure(figsize=(10, 7))
G = gridspec.GridSpec(2, 3)
ax1 = plt.subplot(G[0, :])
ax2 = plt.subplot(G[1, 0])
ax3 = plt.subplot(G[1, 1])
ax4 = plt.subplot(G[1, 2])

## 도달 가능성 플롯
colors = ["g.", "r.", "b.", "y.", "c."]
for klass, color in zip(range(0, 5), colors):
    Xk = space[labels == klass]
    Rk = reachability[labels == klass]
    ax1.plot(Xk, Rk, color, alpha=0.3)
ax1.plot(space[labels == -1], reachability[labels == -1], "k.", alpha=0.3)
ax1.plot(space, np.full_like(space, 2.0, dtype=float), "k-", alpha=0.5)
ax1.plot(space, np.full_like(space, 0.5, dtype=float), "k-.", alpha=0.5)
ax1.set_ylabel("도달 가능성 (epsilon 거리)")
ax1.set_title("도달 가능성 플롯")

## OPTICS
colors = ["g.", "r.", "b.", "y.", "c."]
for klass, color in zip(range(0, 5), colors):
    Xk = X[clust.labels_ == klass]
    ax2.plot(Xk[:, 0], Xk[:, 1], color, alpha=0.3)
ax2.plot(X[clust.labels_ == -1, 0], X[clust.labels_ == -1, 1], "k+", alpha=0.1)
ax2.set_title("자동 군집화\nOPTICS")

## DBSCAN (epsilon=0.5)
colors = ["g.", "r.", "b.", "c."]
for klass, color in zip(range(0, 4), colors):
    Xk = X[labels_050 == klass]
    ax3.plot(Xk[:, 0], Xk[:, 1], color, alpha=0.3)
ax3.plot(X[labels_050 == -1, 0], X[labels_050 == -1, 1], "k+", alpha=0.1)
ax3.set_title("0.5 epsilon 기준 군집화\nDBSCAN")

## DBSCAN (epsilon=2.0)
colors = ["g.", "m.", "y.", "c."]
for klass, color in zip(range(0, 4), colors):
    Xk = X[labels_200 == klass]
    ax4.plot(Xk[:, 0], Xk[:, 1], color, alpha=0.3)
ax4.plot(X[labels_200 == -1, 0], X[labels_200 == -1, 1], "k+", alpha=0.1)
ax4.set_title("2.0 epsilon 기준 군집화\nDBSCAN")

plt.tight_layout()
plt.show()

요약

이 실험에서 OPTICS 군집화 알고리즘을 사용하여 데이터를 군집화하고, 다양한 epsilon 값으로 DBSCAN 을 사용하여 데이터를 군집화하는 방법을 배웠습니다. 또한, 도달 가능성 플롯과 군집화 결과를 시각화하는 방법을 학습했습니다.