Алгоритм кластеризации DBSCAN

Machine LearningMachine LearningBeginner
Практиковаться сейчас

This tutorial is from open-source community. Access the source code

💡 Этот учебник переведен с английского с помощью ИИ. Чтобы просмотреть оригинал, вы можете перейти на английский оригинал

Введение

В этом лабораторном занятии мы будем использовать алгоритм DBSCAN (Density-Based Spatial Clustering of Applications with Noise) для кластеризации синтетического набора данных. DBSCAN - это алгоритм кластеризации, который идентифицирует核心样本 в регионах высокой плотности и расширяет кластеры из них. Этот алгоритм полезен для данных, содержащих кластеры с похожей плотностью.

Советы по работе с ВМ

После запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook не загрузится полностью. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Генерация данных

Мы будем использовать функцию make_blobs из модуля sklearn.datasets для генерации синтетического набора данных с тремя кластерами. Набор данных будет состоять из 750 образцов с стандартным отклонением кластера 0,4. Мы также стандартизируем данные с использованием StandardScaler из модуля sklearn.preprocessing.

from sklearn.datasets import make_blobs
from sklearn.preprocessing import StandardScaler

centers = [[1, 1], [-1, -1], [1, -1]]
X, labels_true = make_blobs(
    n_samples=750, centers=centers, cluster_std=0.4, random_state=0
)

X = StandardScaler().fit_transform(X)

Визуализация данных

Мы можем визуализировать полученные данные с использованием модуля matplotlib.pyplot.

import matplotlib.pyplot as plt

plt.scatter(X[:, 0], X[:, 1])
plt.show()

Вычисление DBSCAN

Мы будем использовать класс DBSCAN из модуля sklearn.cluster для вычисления кластеров. Мы установим параметр eps равным 0,3 и параметр min_samples равным 10. Мы можем получить метки, назначенные DBSCAN, с использованием атрибута labels. Шумовые образцы получают метку -1. Мы также вычислим количество кластеров и количество шумовых точек.

import numpy as np
from sklearn.cluster import DBSCAN
from sklearn import metrics

db = DBSCAN(eps=0.3, min_samples=10).fit(X)
labels = db.labels_

n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)
n_noise_ = list(labels).count(-1)

print("Estimated number of clusters: %d" % n_clusters_)
print("Estimated number of noise points: %d" % n_noise_)

Метрики оценки

Мы можем использовать метрики оценки, чтобы количественно оценить качество полученных кластеров. Мы будем использовать метрики однородности, полноты, V-мера, скорректированный индекс Рэнда, скорректированную взаимную информацию и коэффициент силуэта. Мы будем получать эти метрики из модуля sklearn.metrics. Если истинные метки неизвестны, оценку можно проводить только на основе результатов модели. В этом случае коэффициент силуэта оказывается полезным.

print(f"Homogeneity: {metrics.homogeneity_score(labels_true, labels):.3f}")
print(f"Completeness: {metrics.completeness_score(labels_true, labels):.3f}")
print(f"V-measure: {metrics.v_measure_score(labels_true, labels):.3f}")
print(f"Adjusted Rand Index: {metrics.adjusted_rand_score(labels_true, labels):.3f}")
print(f"Adjusted Mutual Information: {metrics.adjusted_mutual_info_score(labels_true, labels):.3f}")
print(f"Silhouette Coefficient: {metrics.silhouette_score(X, labels):.3f}")

Построение результатов

Мы будем использовать модуль matplotlib.pyplot для построения результатов. Ядерные образцы (большие точки) и неядерные образцы (маленькие точки) окрашены в соответствии с назначенным кластером. Образцы, помеченные как шум, представлены в черном цвете.

unique_labels = set(labels)
core_samples_mask = np.zeros_like(labels, dtype=bool)
core_samples_mask[db.core_sample_indices_] = True

colors = [plt.cm.Spectral(each) for each in np.linspace(0, 1, len(unique_labels))]
for k, col in zip(unique_labels, colors):
    if k == -1:
        col = [0, 0, 0, 1]

    class_member_mask = labels == k

    xy = X[class_member_mask & core_samples_mask]
    plt.plot(
        xy[:, 0],
        xy[:, 1],
        "o",
        markerfacecolor=tuple(col),
        markeredgecolor="k",
        markersize=14,
    )

    xy = X[class_member_mask & ~core_samples_mask]
    plt.plot(
        xy[:, 0],
        xy[:, 1],
        "o",
        markerfacecolor=tuple(col),
        markeredgecolor="k",
        markersize=6,
    )

plt.title(f"Estimated number of clusters: {n_clusters_}")
plt.show()

Резюме

В этом практическом занятии мы использовали алгоритм кластеризации DBSCAN для кластеризации синтетического набора данных. Мы сгенерировали набор данных, визуализировали данные, вычислили кластеры, оценили метрики и построили результаты.