使用多维缩放可视化高维数据

Beginner

This tutorial is from open-source community. Access the source code

简介

多维缩放(MDS)是一种用于在低维空间(通常是二维或三维)中可视化高维数据的技术,同时尽可能保留数据点之间的成对距离。它常用于探索性数据分析和可视化。

在本教程中,我们将逐步介绍如何使用 Python 中的 scikit-learn 库对生成的噪声数据集执行 MDS。

虚拟机提示

虚拟机启动完成后,点击左上角切换到“笔记本”标签,以访问 Jupyter Notebook 进行练习。

有时,你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作验证无法自动化。

如果你在学习过程中遇到问题,请随时向 Labby 提问。课程结束后提供反馈,我们将立即为你解决问题。

导入库

首先,我们需要导入必要的库。我们将使用 numpy、matplotlib、scikit-learn 以及 scikit-learn 中的 PCA。

import numpy as np
from matplotlib import pyplot as plt
from matplotlib.collections import LineCollection
from sklearn import manifold
from sklearn.metrics import euclidean_distances
from sklearn.decomposition import PCA

生成数据

接下来,我们将使用 numpy 生成一个噪声数据集。我们将生成 20 个样本,每个样本有 2 个特征。

EPSILON = np.finfo(np.float32).eps
n_samples = 20
seed = np.random.RandomState(seed=3)
X_true = seed.randint(0, 20, 2 * n_samples).astype(float)
X_true = X_true.reshape((n_samples, 2))
## 使数据居中
X_true -= X_true.mean()

给数据添加噪声

然后,我们将使用 numpy 给数据点之间的成对距离添加噪声。

similarities = euclidean_distances(X_true)

## 给相似度添加噪声
noise = np.random.rand(n_samples, n_samples)
noise = noise + noise.T
noise[np.arange(noise.shape[0]), np.arange(noise.shape[0])] = 0
similarities += noise

执行多维缩放(MDS)

然后,我们将使用 scikit-learn 的 MDS 类对噪声数据集执行 MDS。由于我们已经计算了数据点之间的成对距离,所以我们将使用预先计算的相异度选项。为了进行二维可视化,我们还将组件数量设置为 2。

mds = manifold.MDS(
    n_components=2,
    max_iter=3000,
    eps=1e-9,
    random_state=seed,
    dissimilarity="precomputed",
    n_jobs=1,
    normalized_stress="auto",
)
pos = mds.fit(similarities).embedding_

执行非度量多维缩放(Non-Metric MDS)

我们还将对同一数据集执行非度量多维缩放,以便进行比较。我们将使用与多维缩放相同的选项,只是将度量选项设置为 False。

nmds = manifold.MDS(
    n_components=2,
    metric=False,
    max_iter=3000,
    eps=1e-12,
    dissimilarity="precomputed",
    random_state=seed,
    n_jobs=1,
    n_init=1,
    normalized_stress="auto",
)
npos = nmds.fit_transform(similarities, init=pos)

重新缩放和旋转数据

然后,我们将使用 scikit-learn 中的主成分分析(PCA)对数据进行重新缩放和旋转,以便进行可视化。

## 重新缩放数据
pos *= np.sqrt((X_true**2).sum()) / np.sqrt((pos**2).sum())
npos *= np.sqrt((X_true**2).sum()) / np.sqrt((npos**2).sum())

## 旋转数据
clf = PCA(n_components=2)
X_true = clf.fit_transform(X_true)
pos = clf.fit_transform(pos)
npos = clf.fit_transform(npos)

可视化结果

最后,我们将使用 matplotlib 可视化结果。我们将绘制数据点的真实位置、使用多维缩放(MDS)得到的数据点位置以及使用非度量多维缩放(Non-Metric MDS)得到的数据点位置。我们还将使用 matplotlib 的 LineCollection 绘制数据点之间的成对距离。

fig = plt.figure(1)
ax = plt.axes([0.0, 0.0, 1.0, 1.0])

s = 100
plt.scatter(X_true[:, 0], X_true[:, 1], color="navy", s=s, lw=0, label="True Position")
plt.scatter(pos[:, 0], pos[:, 1], color="turquoise", s=s, lw=0, label="MDS")
plt.scatter(npos[:, 0], npos[:, 1], color="darkorange", s=s, lw=0, label="NMDS")
plt.legend(scatterpoints=1, loc="best", shadow=False)

similarities = similarities.max() / (similarities + EPSILON) * 100
np.fill_diagonal(similarities, 0)
## Plot the edges
start_idx, end_idx = np.where(pos)
## a sequence of (*line0*, *line1*, *line2*), where::
##            linen = (x0, y0), (x1, y1),... (xm, ym)
segments = [
    [X_true[i, :], X_true[j, :]] for i in range(len(pos)) for j in range(len(pos))
]
values = np.abs(similarities)
lc = LineCollection(
    segments, zorder=0, cmap=plt.cm.Blues, norm=plt.Normalize(0, values.max())
)
lc.set_array(similarities.flatten())
lc.set_linewidths(np.full(len(segments), 0.5))
ax.add_collection(lc)

plt.show()

总结

在本教程中,我们学习了如何使用 Python 中的 scikit-learn 对噪声数据集执行多维缩放(MDS)。我们还学习了如何使用 matplotlib 可视化结果。多维缩放是一种有用的技术,用于在低维空间中可视化高维数据,同时尽可能保留数据点之间的成对距离。