Dominando o Agrupamento por Propagação de Afinidade

Introdução

Neste laboratório, aprenderemos a utilizar o algoritmo de Propagação de Afinidade para realizar agrupamento de dados. O algoritmo de Propagação de Afinidade é um algoritmo de agrupamento que não requer o número de clusters a ser pré-definido, sendo capaz de determinar automaticamente o número de clusters com base nos dados de entrada.

Dicas da Máquina Virtual

Após o arranque da VM, clique no canto superior esquerdo para mudar para a aba Notebook para aceder ao Jupyter Notebook para a prática.

Por vezes, pode ser necessário aguardar alguns segundos para o Jupyter Notebook terminar o carregamento. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se tiver problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão e resolveremos o problema rapidamente para si.

Importar bibliotecas necessárias

Começaremos importando as bibliotecas necessárias para realizar o agrupamento e gerar dados de amostra.

import numpy as np
from sklearn.cluster import AffinityPropagation
from sklearn import metrics
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

Gerar dados de amostra

Vamos gerar um conjunto de dados de amostra utilizando a função make_blobs do módulo sklearn.datasets. A função make_blobs gera um conjunto de dados de pontos em um espaço n-dimensional, com cada ponto pertencendo a um dos k clusters. Vamos gerar um conjunto de dados com 300 pontos em um espaço 2-dimensional, com 3 clusters e um desvio padrão de 0,5.

centers = [[1, 1], [-1, -1], [1, -1]]
X, labels_true = make_blobs(
    n_samples=300, centers=centers, cluster_std=0.5, random_state=0
)

Calcular Afinidade de Propagação

Usaremos a classe AffinityPropagation do módulo sklearn.cluster para realizar o agrupamento nos dados. Definiremos o parâmetro preference como -50, que controla o número de clusters a serem gerados. Um valor menor de preference resultará em mais clusters sendo gerados. Em seguida, imprimiremos algumas métricas para avaliar a qualidade do agrupamento.

af = AffinityPropagation(preference=-50, random_state=0).fit(X)
cluster_centers_indices = af.cluster_centers_indices_
labels = af.labels_

n_clusters_ = len(cluster_centers_indices)

print("Número estimado de clusters: %d" % n_clusters_)
print("Homogeneidade: %0.3f" % metrics.homogeneity_score(labels_true, labels))
print("Completude: %0.3f" % metrics.completeness_score(labels_true, labels))
print("Medida-V: %0.3f" % metrics.v_measure_score(labels_true, labels))
print("Índice Rand Ajustado: %0.3f" % metrics.adjusted_rand_score(labels_true, labels))
print(
    "Informação Mútua Ajustada: %0.3f"
    % metrics.adjusted_mutual_info_score(labels_true, labels)
)
print(
    "Coeficiente de Silhueta: %0.3f"
    % metrics.silhouette_score(X, labels, metric="sqeuclidean")
)

Plotar o resultado

Vamos plotar os clusters resultantes usando a biblioteca matplotlib. Irá percorrer cada cluster e plotar os pontos pertencentes a esse cluster, juntamente com o centro do cluster e as linhas conectando o centro a cada ponto no cluster.

plt.close("all")
plt.figure(1)
plt.clf()

colors = plt.cycler("color", plt.cm.viridis(np.linspace(0, 1, 4)))

for k, col in zip(range(n_clusters_), colors):
    class_members = labels == k
    cluster_center = X[cluster_centers_indices[k]]
    plt.scatter(
        X[class_members, 0], X[class_members, 1], color=col["color"], marker="."
    )
    plt.scatter(
        cluster_center[0], cluster_center[1], s=14, color=col["color"], marker="o"
    )
    for x in X[class_members]:
        plt.plot(
            [cluster_center[0], x[0]], [cluster_center[1], x[1]], color=col["color"]
        )

plt.title("Número estimado de clusters: %d" % n_clusters_)
plt.show()

Resumo

Neste laboratório, aprendemos como usar o algoritmo de Propagação de Afinidade para realizar agrupamento em um conjunto de dados. Geramos um conjunto de dados de amostra, realizamos o agrupamento usando o algoritmo de Propagação de Afinidade e plotamos os clusters resultantes. Também avaliamos a qualidade do agrupamento usando várias métricas.