Escala Multidimensional | Visualização de Dados | Tutorial Python

Introdução

A escala multidimensional (MDS) é uma técnica usada para visualizar dados de alta dimensionalidade em um espaço de menor dimensionalidade (geralmente 2D ou 3D), preservando ao máximo as distâncias entre pares de pontos de dados. É frequentemente utilizada na análise exploratória de dados e visualização.

Neste tutorial, percorreremos os passos para realizar MDS em um conjunto de dados ruidoso gerado usando a biblioteca scikit-learn em Python.

Dicas de Máquina Virtual

Após o término do inicialização da VM, clique no canto superior esquerdo para mudar para a aba Notebook para acessar o Jupyter Notebook para praticar.

Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação de operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se você encontrar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão e resolveremos prontamente o problema para você.

Importar Bibliotecas

Primeiro, precisamos importar as bibliotecas necessárias. Usaremos numpy, matplotlib, scikit-learn e PCA do scikit-learn.

import numpy as np
from matplotlib import pyplot as plt
from matplotlib.collections import LineCollection
from sklearn import manifold
from sklearn.metrics import euclidean_distances
from sklearn.decomposition import PCA

Gerar Dados

Em seguida, geraremos um conjunto de dados ruidoso usando numpy. Geraremos 20 amostras com 2 recursos cada.

EPSILON = np.finfo(np.float32).eps
n_samples = 20
seed = np.random.RandomState(seed=3)
X_true = seed.randint(0, 20, 2 * n_samples).astype(float)
X_true = X_true.reshape((n_samples, 2))
## Centralizar os dados
X_true -= X_true.mean()

Adicionar Ruído aos Dados

Em seguida, adicionaremos ruído às distâncias de pares entre os pontos de dados usando numpy.

similarities = euclidean_distances(X_true)

## Adicionar ruído às similaridades
noise = np.random.rand(n_samples, n_samples)
noise = noise + noise.T
noise[np.arange(noise.shape[0]), np.arange(noise.shape[0])] = 0
similarities += noise

Executar MDS

Em seguida, executaremos MDS no conjunto de dados ruidoso usando a classe MDS do scikit-learn. Usaremos a opção de dissimilaridade pré-calculada, pois já calculamos as distâncias de pares entre os pontos de dados. Também definiremos o número de componentes como 2 para visualização 2D.

mds = manifold.MDS(
    n_components=2,
    max_iter=3000,
    eps=1e-9,
    random_state=seed,
    dissimilarity="precomputed",
    n_jobs=1,
    normalized_stress="auto",
)
pos = mds.fit(similarities).embedding_

Executar MDS Não-Métrico

Também executaremos MDS não-métrico no mesmo conjunto de dados para comparação. Usaremos as mesmas opções que o MDS, exceto que definiremos a opção métrica como False.

nmds = manifold.MDS(
    n_components=2,
    metric=False,
    max_iter=3000,
    eps=1e-12,
    dissimilarity="precomputed",
    random_state=seed,
    n_jobs=1,
    n_init=1,
    normalized_stress="auto",
)
npos = nmds.fit_transform(similarities, init=pos)

Redimensionar e Girar os Dados

Em seguida, redimensionaremos e rotacionaremos os dados para visualização usando PCA do scikit-learn.

## Redimensionar os dados
pos *= np.sqrt((X_true**2).sum()) / np.sqrt((pos**2).sum())
npos *= np.sqrt((X_true**2).sum()) / np.sqrt((npos**2).sum())

## Girar os dados
clf = PCA(n_components=2)
X_true = clf.fit_transform(X_true)
pos = clf.fit_transform(pos)
npos = clf.fit_transform(npos)

Visualizar Resultados

Finalmente, visualizaremos os resultados usando matplotlib. Plotaremos a posição verdadeira dos pontos de dados, a posição dos pontos de dados usando MDS e a posição dos pontos de dados usando MDS não-métrico. Também plotaremos as distâncias em pares entre os pontos de dados usando LineCollection do matplotlib.

fig = plt.figure(1)
ax = plt.axes([0.0, 0.0, 1.0, 1.0])

s = 100
plt.scatter(X_true[:, 0], X_true[:, 1], color="navy", s=s, lw=0, label="Posição Verdadeira")
plt.scatter(pos[:, 0], pos[:, 1], color="turquoise", s=s, lw=0, label="MDS")
plt.scatter(npos[:, 0], npos[:, 1], color="darkorange", s=s, lw=0, label="NMDS")
plt.legend(scatterpoints=1, loc="best", shadow=False)

similarities = similarities.max() / (similarities + EPSILON) * 100
np.fill_diagonal(similarities, 0)
## Plotar as arestas
start_idx, end_idx = np.where(pos)
## uma sequência de (*linha0*, *linha1*, *linha2*), onde::
##            linen = (x0, y0), (x1, y1), ... (xm, ym)
segments = [
    [X_true[i, :], X_true[j, :]] for i in range(len(pos)) for j in range(len(pos))
]
values = np.abs(similarities)
lc = LineCollection(
    segments, zorder=0, cmap=plt.cm.Blues, norm=plt.Normalize(0, values.max())
)
lc.set_array(similarities.flatten())
lc.set_linewidths(np.full(len(segments), 0.5))
ax.add_collection(lc)

plt.show()

Resumo

Neste tutorial, aprendemos como realizar MDS (Análise de Componentes Principais) em um conjunto de dados ruidoso usando o scikit-learn em Python. Também aprendemos como visualizar os resultados usando matplotlib. MDS é uma técnica útil para visualizar dados de alta dimensionalidade em um espaço de menor dimensão, preservando ao máximo as distâncias em pares entre os pontos de dados.

Visualização de Dados de Alta Dimensionalidade com MDS