Rendimiento de Bisecting K-Means vs K-Means regular

Introducción

Este es un tutorial paso a paso para comparar el rendimiento del algoritmo K-Means regular y el Bisecting K-Means. El tutorial demostrará las diferencias entre estos algoritmos en términos de agrupamiento con un número creciente de n_clusters.

Consejos sobre la VM

Una vez que se haya completado la inicialización de la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.

A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de las operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.

Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje comentarios después de la sesión y lo resolveremos rápidamente para usted.

Importar bibliotecas

En este paso, importaremos las bibliotecas necesarias para este tutorial.

import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import BisectingKMeans, KMeans

Generar datos de muestra

En este paso, generaremos datos de muestra utilizando la función make_blobs() de scikit-learn. Generaremos 10000 muestras con 2 centros.

n_samples = 10000
random_state = 0
X, _ = make_blobs(n_samples=n_samples, centers=2, random_state=random_state)

Definir el número de clusters y los algoritmos

En este paso, definiremos el número de centros de cluster para KMeans y BisectingKMeans. También definiremos los algoritmos que se van a comparar.

n_clusters_list = [4, 8, 16]
clustering_algorithms = {
    "Bisecting K-Means": BisectingKMeans,
    "K-Means": KMeans,
}

Visualizar los resultados

En este paso, visualizaremos los resultados de los algoritmos utilizando subgráficos. Utilizaremos el diagrama de dispersión para representar los puntos de datos y los centroides de los clusters. Iteraremos a través de cada algoritmo y el número de clusters a comparar y graficaremos los resultados.

fig, axs = plt.subplots(len(clustering_algorithms), len(n_clusters_list), figsize=(12, 5))
axs = axs.T

for i, (algorithm_name, Algorithm) in enumerate(clustering_algorithms.items()):
    for j, n_clusters in enumerate(n_clusters_list):
        algo = Algorithm(n_clusters=n_clusters, random_state=random_state, n_init=3)
        algo.fit(X)
        centers = algo.cluster_centers_

        axs[j, i].scatter(X[:, 0], X[:, 1], s=10, c=algo.labels_)
        axs[j, i].scatter(centers[:, 0], centers[:, 1], c="r", s=20)

        axs[j, i].set_title(f"{algorithm_name} : {n_clusters} clusters")

for ax in axs.flat:
    ax.label_outer()
    ax.set_xticks([])
    ax.set_yticks([])

plt.show()

Resumen

Este tutorial comparó el rendimiento del algoritmo de K-Means regular y el Bisecting K-Means utilizando datos de muestra generados con scikit-learn. Visualizamos los resultados utilizando subgráficos con diagramas de dispersión que representan los puntos de datos y los centroides de los clusters. Encontramos que el algoritmo Bisecting K-Means tiende a crear clusters que tienen una estructura a gran escala más regular, mientras que el algoritmo de K-Means regular crea diferentes agrupamientos al aumentar el número de clusters (n_clusters).

Comparación de rendimiento entre Bisecting K-Means y K-Means regular