Visualização de Dados de Alta Dimensionalidade com MDS

Beginner

This tutorial is from open-source community. Access the source code

Introdução

A escala multidimensional (MDS) é uma técnica usada para visualizar dados de alta dimensionalidade em um espaço de menor dimensionalidade (geralmente 2D ou 3D), preservando ao máximo as distâncias entre pares de pontos de dados. É frequentemente utilizada na análise exploratória de dados e visualização.

Neste tutorial, percorreremos os passos para realizar MDS em um conjunto de dados ruidoso gerado usando a biblioteca scikit-learn em Python.

Dicas de Máquina Virtual

Após o término do inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook para acessar o Jupyter Notebook para praticar.

Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação de operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se você encontrar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão e resolveremos prontamente o problema para você.

Importar Bibliotecas

Primeiro, precisamos importar as bibliotecas necessárias. Usaremos numpy, matplotlib, scikit-learn e PCA do scikit-learn.

import numpy as np
from matplotlib import pyplot as plt
from matplotlib.collections import LineCollection
from sklearn import manifold
from sklearn.metrics import euclidean_distances
from sklearn.decomposition import PCA

Gerar Dados

Em seguida, geraremos um conjunto de dados ruidoso usando numpy. Geraremos 20 amostras com 2 recursos cada.

EPSILON = np.finfo(np.float32).eps
n_samples = 20
seed = np.random.RandomState(seed=3)
X_true = seed.randint(0, 20, 2 * n_samples).astype(float)
X_true = X_true.reshape((n_samples, 2))
## Centralizar os dados
X_true -= X_true.mean()

Adicionar Ruído aos Dados

Em seguida, adicionaremos ruído às distâncias de pares entre os pontos de dados usando numpy.

similarities = euclidean_distances(X_true)

## Adicionar ruído às similaridades
noise = np.random.rand(n_samples, n_samples)
noise = noise + noise.T
noise[np.arange(noise.shape[0]), np.arange(noise.shape[0])] = 0
similarities += noise

Executar MDS

Em seguida, executaremos MDS no conjunto de dados ruidoso usando a classe MDS do scikit-learn. Usaremos a opção de dissimilaridade pré-calculada, pois já calculamos as distâncias de pares entre os pontos de dados. Também definiremos o número de componentes como 2 para visualização 2D.

mds = manifold.MDS(
    n_components=2,
    max_iter=3000,
    eps=1e-9,
    random_state=seed,
    dissimilarity="precomputed",
    n_jobs=1,
    normalized_stress="auto",
)
pos = mds.fit(similarities).embedding_

Executar MDS Não-Métrico

Também executaremos MDS não-métrico no mesmo conjunto de dados para comparação. Usaremos as mesmas opções que o MDS, exceto que definiremos a opção métrica como False.

nmds = manifold.MDS(
    n_components=2,
    metric=False,
    max_iter=3000,
    eps=1e-12,
    dissimilarity="precomputed",
    random_state=seed,
    n_jobs=1,
    n_init=1,
    normalized_stress="auto",
)
npos = nmds.fit_transform(similarities, init=pos)

Redimensionar e Girar os Dados

Em seguida, redimensionaremos e rotacionaremos os dados para visualização usando PCA do scikit-learn.

## Redimensionar os dados
pos *= np.sqrt((X_true**2).sum()) / np.sqrt((pos**2).sum())
npos *= np.sqrt((X_true**2).sum()) / np.sqrt((npos**2).sum())

## Girar os dados
clf = PCA(n_components=2)
X_true = clf.fit_transform(X_true)
pos = clf.fit_transform(pos)
npos = clf.fit_transform(npos)

Visualizar Resultados

Finalmente, visualizaremos os resultados usando matplotlib. Plotaremos a posição verdadeira dos pontos de dados, a posição dos pontos de dados usando MDS e a posição dos pontos de dados usando MDS não-métrico. Também plotaremos as distâncias em pares entre os pontos de dados usando LineCollection do matplotlib.

fig = plt.figure(1)
ax = plt.axes([0.0, 0.0, 1.0, 1.0])

s = 100
plt.scatter(X_true[:, 0], X_true[:, 1], color="navy", s=s, lw=0, label="Posição Verdadeira")
plt.scatter(pos[:, 0], pos[:, 1], color="turquoise", s=s, lw=0, label="MDS")
plt.scatter(npos[:, 0], npos[:, 1], color="darkorange", s=s, lw=0, label="NMDS")
plt.legend(scatterpoints=1, loc="best", shadow=False)

similarities = similarities.max() / (similarities + EPSILON) * 100
np.fill_diagonal(similarities, 0)
## Plotar as arestas
start_idx, end_idx = np.where(pos)
## uma sequência de (*linha0*, *linha1*, *linha2*), onde::
##            linen = (x0, y0), (x1, y1), ... (xm, ym)
segments = [
    [X_true[i, :], X_true[j, :]] for i in range(len(pos)) for j in range(len(pos))
]
values = np.abs(similarities)
lc = LineCollection(
    segments, zorder=0, cmap=plt.cm.Blues, norm=plt.Normalize(0, values.max())
)
lc.set_array(similarities.flatten())
lc.set_linewidths(np.full(len(segments), 0.5))
ax.add_collection(lc)

plt.show()

Resumo

Neste tutorial, aprendemos como realizar MDS (Análise de Componentes Principais) em um conjunto de dados ruidoso usando o scikit-learn em Python. Também aprendemos como visualizar os resultados usando matplotlib. MDS é uma técnica útil para visualizar dados de alta dimensionalidade em um espaço de menor dimensão, preservando ao máximo as distâncias em pares entre os pontos de dados.