Aglomeração de Características para Dados de Alta Dimensionalidade

Beginner

This tutorial is from open-source community. Access the source code

Introdução

Este tutorial demonstrará como usar a agregação de características para fundir características semelhantes num conjunto de dados. A agregação de características é útil quando se trabalha com conjuntos de dados de alta dimensionalidade, reduzindo o número de características enquanto preserva as informações mais importantes.

Dicas da Máquina Virtual

Após o arranque da VM, clique no canto superior esquerdo para mudar para a aba Notebook para aceder ao Jupyter Notebook para praticar.

Por vezes, pode ser necessário esperar alguns segundos para o Jupyter Notebook terminar de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se tiver problemas durante a aprendizagem, não hesite em contactar o Labby. Forneça feedback após a sessão e resolveremos prontamente o problema para si.

Importar Bibliotecas

Neste passo, iremos importar as bibliotecas necessárias para realizar a agregação de características.

import numpy as np
import matplotlib.pyplot as plt

from sklearn import datasets, cluster
from sklearn.feature_extraction.image import grid_to_graph

Carregar Conjunto de Dados

Neste passo, carregaremos o conjunto de dados de dígitos do scikit-learn. Este conjunto de dados contém imagens de dígitos manuscritos de 0 a 9.

digits = datasets.load_digits()
images = digits.images
X = np.reshape(images, (len(images), -1))

Definir Matriz de Conectividade

Neste passo, definiremos a matriz de conectividade utilizando a função grid_to_graph do scikit-learn. Esta função cria um grafo de conectividade baseado na grade de pixels das imagens.

connectivity = grid_to_graph(*images[0].shape)

Realizar Aglomeração de Recursos

Neste passo, realizaremos a aglomeração de recursos utilizando a classe FeatureAgglomeration do scikit-learn. Definiremos o número de clusters como 32.

agglo = cluster.FeatureAgglomeration(connectivity=connectivity, n_clusters=32)
agglo.fit(X)
X_reduced = agglo.transform(X)

Transformação Inversa

Neste passo, realizaremos uma transformação inversa no conjunto de dados reduzido para restaurar o número original de recursos.

X_restored = agglo.inverse_transform(X_reduced)
images_restored = np.reshape(X_restored, images.shape)

Visualizar Resultados

Neste passo, visualizaremos as imagens originais, as imagens aglomeradas e as etiquetas atribuídas a cada cluster.

plt.figure(1, figsize=(4, 3.5))
plt.clf()
plt.subplots_adjust(left=0.01, right=0.99, bottom=0.01, top=0.91)
for i in range(4):
    plt.subplot(3, 4, i + 1)
    plt.imshow(images[i], cmap=plt.cm.gray, vmax=16, interpolation="nearest")
    plt.xticks(())
    plt.yticks(())
    if i == 1:
        plt.title("Dados originais")
    plt.subplot(3, 4, 4 + i + 1)
    plt.imshow(images_restored[i], cmap=plt.cm.gray, vmax=16, interpolation="nearest")
    if i == 1:
        plt.title("Dados aglomerados")
    plt.xticks(())
    plt.yticks(())

plt.subplot(3, 4, 10)
plt.imshow(
    np.reshape(agglo.labels_, images[0].shape),
    interpolation="nearest",
    cmap=plt.cm.nipy_spectral,
)
plt.xticks(())
plt.yticks(())
plt.title("Etiquetas")
plt.show()

Resumo

Neste tutorial, aprendemos como usar a aglomeração de características para fundir características semelhantes num conjunto de dados. Ao reduzir o número de características, podemos melhorar o desempenho dos algoritmos de aprendizagem automática, preservando a informação mais importante no conjunto de dados.