Многомерное масштабирование | Визуализация данных | Руководство по Python

Введение

Мультидимензиональное масштабирование (MDS) — это метод визуализации высокомерных данных в пространстве меньшей размерности (обычно 2D или 3D), при этом максимально сохраняя попарные расстояния между точками данных. Часто используется в исследовательском анализе и визуализации данных.

В этом руководстве мы рассмотрим шаги по проведению MDS на сгенерированном наборе данных с шумом с использованием библиотеки scikit-learn в Python.

Советы по работе с ВМ

После запуска ВМ кликните в левом верхнем углу, чтобы переключиться на вкладку Ноутбук и приступить к практике с использованием Jupyter Notebook.

Иногда может потребоваться подождать несколько секунд, пока Jupyter Notebook полностью загрузится. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы столкнетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL sklearn(("Sklearn")) -.-> sklearn/ModelSelectionandEvaluationGroup(["Model Selection and Evaluation"]) sklearn(("Sklearn")) -.-> sklearn/AdvancedDataAnalysisandDimensionalityReductionGroup(["Advanced Data Analysis and Dimensionality Reduction"]) ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) sklearn/ModelSelectionandEvaluationGroup -.-> sklearn/metrics("Metrics") sklearn/AdvancedDataAnalysisandDimensionalityReductionGroup -.-> sklearn/decomposition("Matrix Decomposition") ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills sklearn/metrics -.-> lab-49210{{"Визуализация высокомерных данных с использованием MDS"}} sklearn/decomposition -.-> lab-49210{{"Визуализация высокомерных данных с использованием MDS"}} ml/sklearn -.-> lab-49210{{"Визуализация высокомерных данных с использованием MDS"}} end

Импорт библиотек

Сначала нам нужно импортировать необходимые библиотеки. Будем использовать numpy, matplotlib, scikit-learn и PCA из scikit-learn.

import numpy as np
from matplotlib import pyplot as plt
from matplotlib.collections import LineCollection
from sklearn import manifold
from sklearn.metrics import euclidean_distances
from sklearn.decomposition import PCA

Генерация данных

Далее мы сгенерируем набор данных с шумом с использованием numpy. Мы сгенерируем 20 выборок по 2 признака в каждой.

EPSILON = np.finfo(np.float32).eps
n_samples = 20
seed = np.random.RandomState(seed=3)
X_true = seed.randint(0, 20, 2 * n_samples).astype(float)
X_true = X_true.reshape((n_samples, 2))
## Center the data
X_true -= X_true.mean()

Добавление шума к данным

Затем мы добавим шум к попарным расстояниям между точками данных с использованием numpy.

similarities = euclidean_distances(X_true)

## Add noise to the similarities
noise = np.random.rand(n_samples, n_samples)
noise = noise + noise.T
noise[np.arange(noise.shape[0]), np.arange(noise.shape[0])] = 0
similarities += noise

Выполнение MDS

Затем мы выполним MDS на наборе данных с шумом с использованием класса MDS из scikit-learn. Мы будем использовать опцию предварительно вычисленных несовместимостей, так как мы уже вычислили попарные расстояния между точками данных. Также мы установим количество компонентов равным 2 для визуализации в 2D.

mds = manifold.MDS(
    n_components=2,
    max_iter=3000,
    eps=1e-9,
    random_state=seed,
    dissimilarity="precomputed",
    n_jobs=1,
    normalized_stress="auto",
)
pos = mds.fit(similarities).embedding_

Выполнение неметрического MDS

Мы также выполним неметрический MDS на том же наборе данных для сравнения. Мы будем использовать те же параметры, что и для MDS, за исключением того, что параметр metric будет равен False.

nmds = manifold.MDS(
    n_components=2,
    metric=False,
    max_iter=3000,
    eps=1e-12,
    dissimilarity="precomputed",
    random_state=seed,
    n_jobs=1,
    n_init=1,
    normalized_stress="auto",
)
npos = nmds.fit_transform(similarities, init=pos)

Масштабирование и вращение данных

Затем мы масштабируем и вращаем данные для визуализации с использованием PCA из scikit-learn.

## Rescale the data
pos *= np.sqrt((X_true**2).sum()) / np.sqrt((pos**2).sum())
npos *= np.sqrt((X_true**2).sum()) / np.sqrt((npos**2).sum())

## Rotate the data
clf = PCA(n_components=2)
X_true = clf.fit_transform(X_true)
pos = clf.fit_transform(pos)
npos = clf.fit_transform(npos)

Визуализация результатов

Наконец, мы визуализируем результаты с использованием matplotlib. Мы построим истинное положение точек данных, положение точек данных с использованием MDS и положение точек данных с использованием неметрического MDS. Мы также построим попарные расстояния между точками данных с использованием LineCollection из matplotlib.

fig = plt.figure(1)
ax = plt.axes([0.0, 0.0, 1.0, 1.0])

s = 100
plt.scatter(X_true[:, 0], X_true[:, 1], color="navy", s=s, lw=0, label="True Position")
plt.scatter(pos[:, 0], pos[:, 1], color="turquoise", s=s, lw=0, label="MDS")
plt.scatter(npos[:, 0], npos[:, 1], color="darkorange", s=s, lw=0, label="NMDS")
plt.legend(scatterpoints=1, loc="best", shadow=False)

similarities = similarities.max() / (similarities + EPSILON) * 100
np.fill_diagonal(similarities, 0)
## Plot the edges
start_idx, end_idx = np.where(pos)
## a sequence of (*line0*, *line1*, *line2*), where::
##            linen = (x0, y0), (x1, y1),... (xm, ym)
segments = [
    [X_true[i, :], X_true[j, :]] for i in range(len(pos)) for j in range(len(pos))
]
values = np.abs(similarities)
lc = LineCollection(
    segments, zorder=0, cmap=plt.cm.Blues, norm=plt.Normalize(0, values.max())
)
lc.set_array(similarities.flatten())
lc.set_linewidths(np.full(len(segments), 0.5))
ax.add_collection(lc)

plt.show()

Резюме

В этом руководстве мы узнали, как выполнить MDS на наборе данных с шумом с использованием scikit-learn в Python. Мы также узнали, как визуализировать результаты с использованием matplotlib. MDS - это полезный метод для визуализации высокомерных данных в пространстве меньшей размерности с максимальным сохранением попарных расстояний между точками данных.