Aprendizaje automático | Algoritmos de clustering | K-Means vs MiniBatchKMeans

Introducción

En este laboratorio, compararemos dos algoritmos de clustering: K-Means y MiniBatchKMeans. K-Means es un algoritmo de clustering popular que se utiliza ampliamente en el aprendizaje automático. MiniBatchKMeans es una variante de K-Means que es más rápida pero da resultados ligeramente diferentes. Agruparemos un conjunto de datos utilizando ambos algoritmos y graficaremos los resultados. También graficaremos los puntos que se etiquetan de manera diferente entre los dos algoritmos.

Consejos sobre la VM

Una vez que se haya completado la inicialización de la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.

A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de las operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.

Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje sus comentarios después de la sesión y lo resolveremos rápidamente para usted.

Generar los datos

Comenzamos generando los grupos de datos que se van a agrupar.

import numpy as np
from sklearn.datasets import make_blobs

np.random.seed(0)

batch_size = 45
centers = [[1, 1], [-1, -1], [1, -1]]
n_clusters = len(centers)
X, labels_true = make_blobs(n_samples=3000, centers=centers, cluster_std=0.7)

Calcular el clustering con KMeans

Vamos a calcular el clustering con KMeans.

import time
from sklearn.cluster import KMeans

k_means = KMeans(init="k-means++", n_clusters=3, n_init=10)
t0 = time.time()
k_means.fit(X)
t_batch = time.time() - t0

Calcular el clustering con MiniBatchKMeans

Vamos a calcular el clustering con MiniBatchKMeans.

from sklearn.cluster import MiniBatchKMeans

mbk = MiniBatchKMeans(
    init="k-means++",
    n_clusters=3,
    batch_size=batch_size,
    n_init=10,
    max_no_improvement=10,
    verbose=0,
)
t0 = time.time()
mbk.fit(X)
t_mini_batch = time.time() - t0

Estableciendo la paridad entre los clusters

Queremos que el mismo cluster tenga el mismo color tanto con el algoritmo MiniBatchKMeans como con KMeans. Vamos a emparejar los centros de los clusters por el más cercano.

from sklearn.metrics.pairwise import pairwise_distances_argmin

k_means_cluster_centers = k_means.cluster_centers_
order = pairwise_distances_argmin(k_means.cluster_centers_, mbk.cluster_centers_)
mbk_means_cluster_centers = mbk.cluster_centers_[order]

k_means_labels = pairwise_distances_argmin(X, k_means_cluster_centers)
mbk_means_labels = pairwise_distances_argmin(X, mbk_means_cluster_centers)

Graficando los resultados

Vamos a graficar los resultados.

import matplotlib.pyplot as plt

fig = plt.figure(figsize=(8, 3))
fig.subplots_adjust(left=0.02, right=0.98, bottom=0.05, top=0.9)
colors = ["#4EACC5", "#FF9C34", "#4E9A06"]

## KMeans
ax = fig.add_subplot(1, 3, 1)
for k, col in zip(range(n_clusters), colors):
    my_members = k_means_labels == k
    cluster_center = k_means_cluster_centers[k]
    ax.plot(X[my_members, 0], X[my_members, 1], "w", markerfacecolor=col, marker=".")
    ax.plot(
        cluster_center[0],
        cluster_center[1],
        "o",
        markerfacecolor=col,
        markeredgecolor="k",
        markersize=6,
    )
ax.set_title("KMeans")
ax.set_xticks(())
ax.set_yticks(())
plt.text(-3.5, 1.8, "tiempo de entrenamiento: %.2fs\ninercia: %f" % (t_batch, k_means.inertia_))

## MiniBatchKMeans
ax = fig.add_subplot(1, 3, 2)
for k, col in zip(range(n_clusters), colors):
    my_members = mbk_means_labels == k
    cluster_center = mbk_means_cluster_centers[k]
    ax.plot(X[my_members, 0], X[my_members, 1], "w", markerfacecolor=col, marker=".")
    ax.plot(
        cluster_center[0],
        cluster_center[1],
        "o",
        markerfacecolor=col,
        markeredgecolor="k",
        markersize=6,
    )
ax.set_title("MiniBatchKMeans")
ax.set_xticks(())
ax.set_yticks(())
plt.text(-3.5, 1.8, "tiempo de entrenamiento: %.2fs\ninercia: %f" % (t_mini_batch, mbk.inertia_))

## Inicializar la diferente matriz a todas las falsas
different = mbk_means_labels == 4
ax = fig.add_subplot(1, 3, 3)

for k in range(n_clusters):
    different += (k_means_labels == k)!= (mbk_means_labels == k)

identical = np.logical_not(different)
ax.plot(X[identical, 0], X[identical, 1], "w", markerfacecolor="#bbbbbb", marker=".")
ax.plot(X[different, 0], X[different, 1], "w", markerfacecolor="m", marker=".")
ax.set_title("Diferencia")
ax.set_xticks(())
ax.set_yticks(())

plt.show()

Resumen

En este laboratorio, aprendimos cómo comparar dos algoritmos de clustering: K-Means y MiniBatchKMeans. Agrupamos un conjunto de datos utilizando ambos algoritmos y graficamos los resultados. También graficamos los puntos que se etiquetan de manera diferente entre los dos algoritmos. Esta comparación nos ayuda a entender las diferencias entre los dos algoritmos y elegir el que mejor se ajuste a nuestras necesidades.

Comparando K-Means y MiniBatchKMeans