OPTICS クラスタリングアルゴリズム

Machine LearningMachine LearningBeginner
今すぐ練習

This tutorial is from open-source community. Access the source code

💡 このチュートリアルは英語版からAIによって翻訳されています。原文を確認するには、 ここをクリックしてください

はじめに

この実験では、scikit-learnライブラリを使ってOPTICSクラスタリングアルゴリズムの使用方法を示します。OPTICSは、Ordering Points To Identify the Clustering Structureの略です。高密度のコアサンプルを見つけ、そこからクラスタを拡張する密度ベースのクラスタリングアルゴリズムです。この実験では、サンプルデータを生成し、到達可能性プロットを描画し、DBSCANを使ってデータをクラスタリングします。

VMのヒント

VMの起動が完了したら、左上隅をクリックしてノートブックタブに切り替え、Jupyter Notebookを使って練習します。

時々、Jupyter Notebookが読み込み終わるまで数秒待つ必要があります。Jupyter Notebookの制限により、操作の検証を自動化できません。

学習中に問題がある場合は、Labbyにお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL sklearn(("Sklearn")) -.-> sklearn/CoreModelsandAlgorithmsGroup(["Core Models and Algorithms"]) ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) sklearn/CoreModelsandAlgorithmsGroup -.-> sklearn/cluster("Clustering") ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills sklearn/cluster -.-> lab-49234{{"OPTICS クラスタリングアルゴリズム"}} ml/sklearn -.-> lab-49234{{"OPTICS クラスタリングアルゴリズム"}} end

ライブラリのインポート

この実験に必要なライブラリをインポートします。numpy、matplotlib.pyplot、およびscikit-learnからのOPTICSとcluster_optics_dbscanです。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import OPTICS, cluster_optics_dbscan

サンプルデータの生成

クラスタリング用のサンプルデータを生成します。この例では、numpyを使って異なる密度の6つのクラスタを生成します。

np.random.seed(0)
n_points_per_cluster = 250

C1 = [-5, -2] + 0.8 * np.random.randn(n_points_per_cluster, 2)
C2 = [4, -1] + 0.1 * np.random.randn(n_points_per_cluster, 2)
C3 = [1, -2] + 0.2 * np.random.randn(n_points_per_cluster, 2)
C4 = [-2, 3] + 0.3 * np.random.randn(n_points_per_cluster, 2)
C5 = [3, -2] + 1.6 * np.random.randn(n_points_per_cluster, 2)
C6 = [5, 6] + 2 * np.random.randn(n_points_per_cluster, 2)
X = np.vstack((C1, C2, C3, C4, C5, C6))

OPTICSクラスタリングアルゴリズムを実行する

次に、生成したデータに対してOPTICSクラスタリングアルゴリズムを実行します。この例では、min_samples=50xi=0.05、およびmin_cluster_size=0.05を設定します。

clust = OPTICS(min_samples=50, xi=0.05, min_cluster_size=0.05)
clust.fit(X)

DBSCANを使ってデータをクラスタリングする

異なるepsilon値でDBSCANを使ってデータをクラスタリングします。この例では、epsilonを0.5と2に設定します。

labels_050 = cluster_optics_dbscan(
    reachability=clust.reachability_,
    core_distances=clust.core_distances_,
    ordering=clust.ordering_,
    eps=0.5,
)
labels_200 = cluster_optics_dbscan(
    reachability=clust.reachability_,
    core_distances=clust.core_distances_,
    ordering=clust.ordering_,
    eps=2,
)

到達可能性プロットとクラスタリング結果をプロットする

異なるepsilon値でのOPTICSとDBSCANの到達可能性プロットとクラスタリング結果をプロットします。

space = np.arange(len(X))
reachability = clust.reachability_[clust.ordering_]
labels = clust.labels_[clust.ordering_]

plt.figure(figsize=(10, 7))
G = gridspec.GridSpec(2, 3)
ax1 = plt.subplot(G[0, :])
ax2 = plt.subplot(G[1, 0])
ax3 = plt.subplot(G[1, 1])
ax4 = plt.subplot(G[1, 2])

## 到達可能性プロット
colors = ["g.", "r.", "b.", "y.", "c."]
for klass, color in zip(range(0, 5), colors):
    Xk = space[labels == klass]
    Rk = reachability[labels == klass]
    ax1.plot(Xk, Rk, color, alpha=0.3)
ax1.plot(space[labels == -1], reachability[labels == -1], "k.", alpha=0.3)
ax1.plot(space, np.full_like(space, 2.0, dtype=float), "k-", alpha=0.5)
ax1.plot(space, np.full_like(space, 0.5, dtype=float), "k-.", alpha=0.5)
ax1.set_ylabel("到達可能性 (epsilon距離)")
ax1.set_title("到達可能性プロット")

## OPTICS
colors = ["g.", "r.", "b.", "y.", "c."]
for klass, color in zip(range(0, 5), colors):
    Xk = X[clust.labels_ == klass]
    ax2.plot(Xk[:, 0], Xk[:, 1], color, alpha=0.3)
ax2.plot(X[clust.labels_ == -1, 0], X[clust.labels_ == -1, 1], "k+", alpha=0.1)
ax2.set_title("自動クラスタリング\nOPTICS")

## 0.5でのDBSCAN
colors = ["g.", "r.", "b.", "c."]
for klass, color in zip(range(0, 4), colors):
    Xk = X[labels_050 == klass]
    ax3.plot(Xk[:, 0], Xk[:, 1], color, alpha=0.3)
ax3.plot(X[labels_050 == -1, 0], X[labels_050 == -1, 1], "k+", alpha=0.1)
ax3.set_title("0.5 epsilonカットでのクラスタリング\nDBSCAN")

## 2.でのDBSCAN
colors = ["g.", "m.", "y.", "c."]
for klass, color in zip(range(0, 4), colors):
    Xk = X[labels_200 == klass]
    ax4.plot(Xk[:, 0], Xk[:, 1], color, alpha=0.3)
ax4.plot(X[labels_200 == -1, 0], X[labels_200 == -1, 1], "k+", alpha=0.1)
ax4.set_title("2.0 epsilonカットでのクラスタリング\nDBSCAN")

plt.tight_layout()
plt.show()

まとめ

この実験では、OPTICSクラスタリングアルゴリズムを使ってデータをクラスタリングする方法と、異なるepsilon値でDBSCANを使ってデータをクラスタリングする方法を学びました。また、到達可能性プロットとクラスタリング結果をプロットする方法も学びました。