Introdução
Neste laboratório, aprenderemos a utilizar o algoritmo de Propagação de Afinidade para realizar agrupamento de dados. O algoritmo de Propagação de Afinidade é um algoritmo de agrupamento que não requer o número de clusters a ser pré-definido, sendo capaz de determinar automaticamente o número de clusters com base nos dados de entrada.
Dicas da Máquina Virtual
Após o arranque da VM, clique no canto superior esquerdo para mudar para a aba Notebook para aceder ao Jupyter Notebook para a prática.
Por vezes, pode ser necessário aguardar alguns segundos para o Jupyter Notebook terminar o carregamento. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.
Se tiver problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão e resolveremos o problema rapidamente para si.
Importar bibliotecas necessárias
Começaremos importando as bibliotecas necessárias para realizar o agrupamento e gerar dados de amostra.
import numpy as np
from sklearn.cluster import AffinityPropagation
from sklearn import metrics
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
Gerar dados de amostra
Vamos gerar um conjunto de dados de amostra utilizando a função make_blobs do módulo sklearn.datasets. A função make_blobs gera um conjunto de dados de pontos em um espaço n-dimensional, com cada ponto pertencendo a um dos k clusters. Vamos gerar um conjunto de dados com 300 pontos em um espaço 2-dimensional, com 3 clusters e um desvio padrão de 0,5.
centers = [[1, 1], [-1, -1], [1, -1]]
X, labels_true = make_blobs(
n_samples=300, centers=centers, cluster_std=0.5, random_state=0
)
Calcular Afinidade de Propagação
Usaremos a classe AffinityPropagation do módulo sklearn.cluster para realizar o agrupamento nos dados. Definiremos o parâmetro preference como -50, que controla o número de clusters a serem gerados. Um valor menor de preference resultará em mais clusters sendo gerados. Em seguida, imprimiremos algumas métricas para avaliar a qualidade do agrupamento.
af = AffinityPropagation(preference=-50, random_state=0).fit(X)
cluster_centers_indices = af.cluster_centers_indices_
labels = af.labels_
n_clusters_ = len(cluster_centers_indices)
print("Número estimado de clusters: %d" % n_clusters_)
print("Homogeneidade: %0.3f" % metrics.homogeneity_score(labels_true, labels))
print("Completude: %0.3f" % metrics.completeness_score(labels_true, labels))
print("Medida-V: %0.3f" % metrics.v_measure_score(labels_true, labels))
print("Índice Rand Ajustado: %0.3f" % metrics.adjusted_rand_score(labels_true, labels))
print(
"Informação Mútua Ajustada: %0.3f"
% metrics.adjusted_mutual_info_score(labels_true, labels)
)
print(
"Coeficiente de Silhueta: %0.3f"
% metrics.silhouette_score(X, labels, metric="sqeuclidean")
)
Plotar o resultado
Vamos plotar os clusters resultantes usando a biblioteca matplotlib. Irá percorrer cada cluster e plotar os pontos pertencentes a esse cluster, juntamente com o centro do cluster e as linhas conectando o centro a cada ponto no cluster.
plt.close("all")
plt.figure(1)
plt.clf()
colors = plt.cycler("color", plt.cm.viridis(np.linspace(0, 1, 4)))
for k, col in zip(range(n_clusters_), colors):
class_members = labels == k
cluster_center = X[cluster_centers_indices[k]]
plt.scatter(
X[class_members, 0], X[class_members, 1], color=col["color"], marker="."
)
plt.scatter(
cluster_center[0], cluster_center[1], s=14, color=col["color"], marker="o"
)
for x in X[class_members]:
plt.plot(
[cluster_center[0], x[0]], [cluster_center[1], x[1]], color=col["color"]
)
plt.title("Número estimado de clusters: %d" % n_clusters_)
plt.show()
Resumo
Neste laboratório, aprendemos como usar o algoritmo de Propagação de Afinidade para realizar agrupamento em um conjunto de dados. Geramos um conjunto de dados de amostra, realizamos o agrupamento usando o algoritmo de Propagação de Afinidade e plotamos os clusters resultantes. Também avaliamos a qualidade do agrupamento usando várias métricas.