MDS を使った高次元データの可視化

Beginner

This tutorial is from open-source community. Access the source code

はじめに

多次元尺度構成法(MDS:Multi-Dimensional Scaling)は、高次元データを低次元空間(通常は 2 次元または 3 次元)に可視化する手法であり、データポイント間の対距離をできる限り維持します。この手法は、探索的データ分析や可視化によく使用されます。

このチュートリアルでは、Python の scikit-learn ライブラリを使って生成したノイズ付きデータセットに対して MDS を実行する手順を説明します。

VM のヒント

VM の起動が完了したら、左上隅をクリックしてノートブックタブに切り替え、Jupyter Notebook を使って練習しましょう。

Jupyter Notebook の読み込みには数秒かかる場合があります。Jupyter Notebook の制限により、操作の検証は自動化できません。

学習中に問題がある場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。

ライブラリのインポート

まず、必要なライブラリをインポートする必要があります。numpy、matplotlib、scikit-learn、および scikit-learn からの PCA を使用します。

import numpy as np
from matplotlib import pyplot as plt
from matplotlib.collections import LineCollection
from sklearn import manifold
from sklearn.metrics import euclidean_distances
from sklearn.decomposition import PCA

データの生成

次に、numpy を使ってノイズ付きのデータセットを生成します。2 つの特徴量を持つ 20 個のサンプルを生成します。

EPSILON = np.finfo(np.float32).eps
n_samples = 20
seed = np.random.RandomState(seed=3)
X_true = seed.randint(0, 20, 2 * n_samples).astype(float)
X_true = X_true.reshape((n_samples, 2))
## データを中心化する
X_true -= X_true.mean()

データにノイズを追加する

次に、numpy を使ってデータポイント間の対距離にノイズを追加します。

similarities = euclidean_distances(X_true)

## 類似度にノイズを追加する
noise = np.random.rand(n_samples, n_samples)
noise = noise + noise.T
noise[np.arange(noise.shape[0]), np.arange(noise.shape[0])] = 0
similarities += noise

MDS を実行する

次に、scikit-learn の MDS クラスを使ってノイズ付きのデータセットに対して MDS を実行します。データポイント間の対距離を既に計算済みなので、事前計算済みの非類似度オプションを使用します。2 次元可視化のため、成分数を 2 に設定します。

mds = manifold.MDS(
    n_components=2,
    max_iter=3000,
    eps=1e-9,
    random_state=seed,
    dissimilarity="precomputed",
    n_jobs=1,
    normalized_stress="auto",
)
pos = mds.fit(similarities).embedding_

非計量 MDS を実行する

比較のため、同じデータセットに対して非計量 MDS も実行します。MDS と同じオプションを使用しますが、metric オプションを False に設定することを除きます。

nmds = manifold.MDS(
    n_components=2,
    metric=False,
    max_iter=3000,
    eps=1e-12,
    dissimilarity="precomputed",
    random_state=seed,
    n_jobs=1,
    n_init=1,
    normalized_stress="auto",
)
npos = nmds.fit_transform(similarities, init=pos)

データの再スケーリングと回転

次に、scikit-learn の PCA を使って可視化のためにデータを再スケーリングと回転します。

## データを再スケーリングする
pos *= np.sqrt((X_true**2).sum()) / np.sqrt((pos**2).sum())
npos *= np.sqrt((X_true**2).sum()) / np.sqrt((npos**2).sum())

## データを回転する
clf = PCA(n_components=2)
X_true = clf.fit_transform(X_true)
pos = clf.fit_transform(pos)
npos = clf.fit_transform(npos)

結果を可視化する

最後に、matplotlib を使って結果を可視化します。データポイントの真の位置、MDS を使ったデータポイントの位置、および非計量 MDS を使ったデータポイントの位置をプロットします。また、matplotlib の LineCollection を使ってデータポイント間の対距離をプロットします。

fig = plt.figure(1)
ax = plt.axes([0.0, 0.0, 1.0, 1.0])

s = 100
plt.scatter(X_true[:, 0], X_true[:, 1], color="navy", s=s, lw=0, label="True Position")
plt.scatter(pos[:, 0], pos[:, 1], color="turquoise", s=s, lw=0, label="MDS")
plt.scatter(npos[:, 0], npos[:, 1], color="darkorange", s=s, lw=0, label="NMDS")
plt.legend(scatterpoints=1, loc="best", shadow=False)

similarities = similarities.max() / (similarities + EPSILON) * 100
np.fill_diagonal(similarities, 0)
## Plot the edges
start_idx, end_idx = np.where(pos)
## a sequence of (*line0*, *line1*, *line2*), where::
##            linen = (x0, y0), (x1, y1),... (xm, ym)
segments = [
    [X_true[i, :], X_true[j, :]] for i in range(len(pos)) for j in range(len(pos))
]
values = np.abs(similarities)
lc = LineCollection(
    segments, zorder=0, cmap=plt.cm.Blues, norm=plt.Normalize(0, values.max())
)
lc.set_array(similarities.flatten())
lc.set_linewidths(np.full(len(segments), 0.5))
ax.add_collection(lc)

plt.show()

まとめ

このチュートリアルでは、Python の scikit-learn を使ってノイズ付きのデータセットに対して MDS を実行する方法を学びました。また、matplotlib を使って結果を可視化する方法も学びました。MDS は、データポイント間の対距離をできるだけ維持しながら、高次元データを低次元空間で可視化するための便利な手法です。