Введение
В этом практическом занятии демонстрируется использование алгоритма кластеризации OPTICS с использованием библиотеки scikit-learn. OPTICS - это аббревиатура от Ordering Points To Identify the Clustering Structure. Это алгоритм кластеризации на основе плотности, который находит ядра образцов с высокой плотностью и расширяет кластеры из них. В этом практическом занятии мы сгенерируем образцовые данные, построим график достижимости и используем DBSCAN для кластеризации данных.
Советы по работе с ВМ
После запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.
Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook загрузится. Валидация операций не может быть автоматизирована из-за ограничений в Jupyter Notebook.
Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.
Импорт библиотек
Начнем с импорта необходимых библиотек для этого практического занятия - numpy, matplotlib.pyplot, а также OPTICS и cluster_optics_dbscan из scikit-learn.
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import OPTICS, cluster_optics_dbscan
Генерация образцовых данных
Мы сгенерируем образцовые данные для кластеризации. В этом примере мы генерируем шесть кластеров с разной плотностью с использованием numpy.
np.random.seed(0)
n_points_per_cluster = 250
C1 = [-5, -2] + 0.8 * np.random.randn(n_points_per_cluster, 2)
C2 = [4, -1] + 0.1 * np.random.randn(n_points_per_cluster, 2)
C3 = [1, -2] + 0.2 * np.random.randn(n_points_per_cluster, 2)
C4 = [-2, 3] + 0.3 * np.random.randn(n_points_per_cluster, 2)
C5 = [3, -2] + 1.6 * np.random.randn(n_points_per_cluster, 2)
C6 = [5, 6] + 2 * np.random.randn(n_points_per_cluster, 2)
X = np.vstack((C1, C2, C3, C4, C5, C6))
Запуск алгоритма кластеризации OPTICS
Теперь мы запустим алгоритм кластеризации OPTICS на сгенерированных данных. В этом примере мы задаем min_samples=50, xi=0.05 и min_cluster_size=0.05.
clust = OPTICS(min_samples=50, xi=0.05, min_cluster_size=0.05)
clust.fit(X)
Кластеризация данных с использованием DBSCAN
Мы будем кластеризовать данные с использованием DBSCAN при различных значениях эпсилон (epsilon). В этом примере мы устанавливаем эпсилон равным 0,5 и 2.
labels_050 = cluster_optics_dbscan(
reachability=clust.reachability_,
core_distances=clust.core_distances_,
ordering=clust.ordering_,
eps=0.5,
)
labels_200 = cluster_optics_dbscan(
reachability=clust.reachability_,
core_distances=clust.core_distances_,
ordering=clust.ordering_,
eps=2,
)
Построение графика достижимости и результатов кластеризации
Мы построим график достижимости и результаты кластеризации для OPTICS и DBSCAN при различных значениях эпсилон (epsilon).
space = np.arange(len(X))
reachability = clust.reachability_[clust.ordering_]
labels = clust.labels_[clust.ordering_]
plt.figure(figsize=(10, 7))
G = gridspec.GridSpec(2, 3)
ax1 = plt.subplot(G[0, :])
ax2 = plt.subplot(G[1, 0])
ax3 = plt.subplot(G[1, 1])
ax4 = plt.subplot(G[1, 2])
## График достижимости
colors = ["g.", "r.", "b.", "y.", "c."]
for klass, color in zip(range(0, 5), colors):
Xk = space[labels == klass]
Rk = reachability[labels == klass]
ax1.plot(Xk, Rk, color, alpha=0.3)
ax1.plot(space[labels == -1], reachability[labels == -1], "k.", alpha=0.3)
ax1.plot(space, np.full_like(space, 2.0, dtype=float), "k-", alpha=0.5)
ax1.plot(space, np.full_like(space, 0.5, dtype=float), "k-.", alpha=0.5)
ax1.set_ylabel("Достижимость (расстояние эпсилон)")
ax1.set_title("График достижимости")
## OPTICS
colors = ["g.", "r.", "b.", "y.", "c."]
for klass, color in zip(range(0, 5), colors):
Xk = X[clust.labels_ == klass]
ax2.plot(Xk[:, 0], Xk[:, 1], color, alpha=0.3)
ax2.plot(X[clust.labels_ == -1, 0], X[clust.labels_ == -1, 1], "k+", alpha=0.1)
ax2.set_title("Автоматическое кластеризация\nOPTICS")
## DBSCAN при 0.5
colors = ["g.", "r.", "b.", "c."]
for klass, color in zip(range(0, 4), colors):
Xk = X[labels_050 == klass]
ax3.plot(Xk[:, 0], Xk[:, 1], color, alpha=0.3)
ax3.plot(X[labels_050 == -1, 0], X[labels_050 == -1, 1], "k+", alpha=0.1)
ax3.set_title("Кластеризация при срезе эпсилон = 0.5\nDBSCAN")
## DBSCAN при 2.
colors = ["g.", "m.", "y.", "c."]
for klass, color in zip(range(0, 4), colors):
Xk = X[labels_200 == klass]
ax4.plot(Xk[:, 0], Xk[:, 1], color, alpha=0.3)
ax4.plot(X[labels_200 == -1, 0], X[labels_200 == -1, 1], "k+", alpha=0.1)
ax4.set_title("Кластеризация при срезе эпсилон = 2.0\nDBSCAN")
plt.tight_layout()
plt.show()
Резюме
В этом практическом занятии мы узнали, как использовать алгоритм кластеризации OPTICS для кластеризации данных и как использовать DBSCAN для кластеризации данных при различных значениях эпсилон (epsilon). Мы также узнали, как построить график достижимости и результаты кластеризации.