Производительность Bisecting K-Means по сравнению с обычным K-Means

Введение

Это пошаговое руководство по сравнению производительности алгоритма K-Means и Bisecting K-Means. Руководство покажет различия между этими алгоритмами при кластеризации с увеличением n_clusters.

Советы по работе с ВМ

После запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook загрузится. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Импорт библиотек

В этом шаге мы импортируем необходимые библиотеки для этого руководства.

import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import BisectingKMeans, KMeans

Генерация выборочных данных

В этом шаге мы сгенерируем выборочные данные с использованием функции make_blobs() из scikit - learn. Мы сгенерируем 10000 выборок с 2 центрами.

n_samples = 10000
random_state = 0
X, _ = make_blobs(n_samples=n_samples, centers=2, random_state=random_state)

Определение количества кластеров и алгоритмов

В этом шаге мы определим количество центров кластеров для KMeans и BisectingKMeans. Также мы определим алгоритмы, которые будут сравниваться.

n_clusters_list = [4, 8, 16]
clustering_algorithms = {
    "Bisecting K-Means": BisectingKMeans,
    "K-Means": KMeans,
}

Визуализация результатов

В этом шаге мы визуализируем результаты алгоритмов с использованием подграфиков. Мы будем использовать точечный график для представления точек данных и центроидов кластеров. Мы будем итерироваться по каждому алгоритму и количеству кластеров для сравнения и рисовать результаты.

fig, axs = plt.subplots(len(clustering_algorithms), len(n_clusters_list), figsize=(12, 5))
axs = axs.T

for i, (algorithm_name, Algorithm) in enumerate(clustering_algorithms.items()):
    for j, n_clusters in enumerate(n_clusters_list):
        algo = Algorithm(n_clusters=n_clusters, random_state=random_state, n_init=3)
        algo.fit(X)
        centers = algo.cluster_centers_

        axs[j, i].scatter(X[:, 0], X[:, 1], s=10, c=algo.labels_)
        axs[j, i].scatter(centers[:, 0], centers[:, 1], c="r", s=20)

        axs[j, i].set_title(f"{algorithm_name} : {n_clusters} clusters")

for ax in axs.flat:
    ax.label_outer()
    ax.set_xticks([])
    ax.set_yticks([])

plt.show()

Резюме

В этом руководстве сравнивается производительность алгоритма обычного K-Means и Bisecting K-Means с использованием выборочных данных, сгенерированных из scikit-learn. Мы визуализировали результаты с использованием подграфиков с точечными графиками, представляющими точки данных и центроиды кластеров. Мы обнаружили, что алгоритм Bisecting K-Means имеет тенденцию создавать кластеры с более регулярной крупномасштабной структурой, в то время как алгоритм обычного K-Means создает разные кластеризации при увеличении n_clusters.

Сравнение производительности Bisecting K-Means и обычного K-Means