다차원 스케일링 | 데이터 시각화 | 파이썬 튜토리얼

소개

다차원척도법 (MDS) 은 고차원 데이터를 저차원 공간 (보통 2 차원 또는 3 차원) 에 시각화하는 기법으로, 데이터 포인트 간의 쌍대 거리를 최대한 보존합니다. 탐색적 데이터 분석 및 시각화에 자주 사용됩니다.

이 튜토리얼에서는 Python 의 scikit-learn 라이브러리를 사용하여 생성된 잡음 데이터 세트에 MDS 를 적용하는 단계를 단계별로 설명합니다.

VM 팁

VM 시작이 완료되면 왼쪽 상단 모서리를 클릭하여 Notebook 탭으로 전환하여 연습용 Jupyter Notebook에 접근할 수 있습니다.

때때로 Jupyter Notebook 이 완전히 로드되기까지 몇 초 정도 기다려야 할 수 있습니다. Jupyter Notebook 의 제한으로 인해 작업 검증은 자동화될 수 없습니다.

학습 중 문제가 발생하면 Labby 에 문의하십시오. 세션 후 피드백을 제공하면 문제를 신속하게 해결해 드리겠습니다.

라이브러리 가져오기

먼저 필요한 라이브러리를 가져와야 합니다. numpy, matplotlib, scikit-learn, 그리고 scikit-learn 의 PCA 를 사용할 것입니다.

import numpy as np
from matplotlib import pyplot as plt
from matplotlib.collections import LineCollection
from sklearn import manifold
from sklearn.metrics import euclidean_distances
from sklearn.decomposition import PCA

데이터 생성

다음으로 numpy 를 사용하여 잡음 데이터 세트를 생성합니다. 각각 2 개의 특징을 가진 20 개의 샘플을 생성할 것입니다.

EPSILON = np.finfo(np.float32).eps
n_samples = 20
seed = np.random.RandomState(seed=3)
X_true = seed.randint(0, 20, 2 * n_samples).astype(float)
X_true = X_true.reshape((n_samples, 2))
## 데이터를 중심화합니다.
X_true -= X_true.mean()

데이터에 노이즈 추가

그런 다음 numpy 를 사용하여 데이터 포인트 간의 쌍대 거리에 노이즈를 추가합니다.

similarities = euclidean_distances(X_true)

## 유사성에 노이즈 추가
noise = np.random.rand(n_samples, n_samples)
noise = noise + noise.T
noise[np.arange(noise.shape[0]), np.arange(noise.shape[0])] = 0
similarities += noise

MDS 수행

그런 다음 scikit-learn 의 MDS 클래스를 사용하여 잡음 데이터 세트에 MDS 를 수행합니다. 데이터 포인트 간의 쌍대 거리를 이미 계산했으므로 사전 계산된 비유사성 옵션을 사용할 것입니다. 또한 2 차원 시각화를 위해 구성 요소 수를 2 로 설정합니다.

mds = manifold.MDS(
    n_components=2,
    max_iter=3000,
    eps=1e-9,
    random_state=seed,
    dissimilarity="precomputed",
    n_jobs=1,
    normalized_stress="auto",
)
pos = mds.fit(similarities).embedding_

비메트릭 MDS 수행

비교를 위해 동일한 데이터 세트에 비메트릭 MDS 를 수행할 것입니다. MDS 와 동일한 옵션을 사용하지만 메트릭 옵션을 False 로 설정합니다.

nmds = manifold.MDS(
    n_components=2,
    metric=False,
    max_iter=3000,
    eps=1e-12,
    dissimilarity="precomputed",
    random_state=seed,
    n_jobs=1,
    n_init=1,
    normalized_stress="auto",
)
npos = nmds.fit_transform(similarities, init=pos)

데이터 재조정 및 회전

그런 다음 scikit-learn 의 PCA 를 사용하여 시각화를 위해 데이터를 재조정하고 회전합니다.

## 데이터 재조정
pos *= np.sqrt((X_true**2).sum()) / np.sqrt((pos**2).sum())
npos *= np.sqrt((X_true**2).sum()) / np.sqrt((npos**2).sum())

## 데이터 회전
clf = PCA(n_components=2)
X_true = clf.fit_transform(X_true)
pos = clf.fit_transform(pos)
npos = clf.fit_transform(npos)

결과 시각화

마지막으로 matplotlib 를 사용하여 결과를 시각화합니다. 데이터 포인트의 실제 위치, MDS 를 사용한 데이터 포인트의 위치, 비메트릭 MDS 를 사용한 데이터 포인트의 위치를 플롯합니다. 또한 matplotlib 의 LineCollection 을 사용하여 데이터 포인트 간의 쌍대 거리를 플롯합니다.

fig = plt.figure(1)
ax = plt.axes([0.0, 0.0, 1.0, 1.0])

s = 100
plt.scatter(X_true[:, 0], X_true[:, 1], color="navy", s=s, lw=0, label="True Position")
plt.scatter(pos[:, 0], pos[:, 1], color="turquoise", s=s, lw=0, label="MDS")
plt.scatter(npos[:, 0], npos[:, 1], color="darkorange", s=s, lw=0, label="NMDS")
plt.legend(scatterpoints=1, loc="best", shadow=False)

similarities = similarities.max() / (similarities + EPSILON) * 100
np.fill_diagonal(similarities, 0)
## 에지 플롯
start_idx, end_idx = np.where(pos)
## (*line0*, *line1*, *line2*) 의 시퀀스, 여기서::
##            linen = (x0, y0), (x1, y1), ... (xm, ym)
segments = [
    [X_true[i, :], X_true[j, :]] for i in range(len(pos)) for j in range(len(pos))
]
values = np.abs(similarities)
lc = LineCollection(
    segments, zorder=0, cmap=plt.cm.Blues, norm=plt.Normalize(0, values.max())
)
lc.set_array(similarities.flatten())
lc.set_linewidths(np.full(len(segments), 0.5))
ax.add_collection(lc)

plt.show()

요약

이 튜토리얼에서는 Python 의 scikit-learn 을 사용하여 잡음이 있는 데이터 세트에 MDS 를 수행하는 방법을 배웠습니다. 또한 matplotlib 를 사용하여 결과를 시각화하는 방법도 배웠습니다. MDS 는 데이터 포인트 간의 쌍대 거리를 최대한 보존하면서 고차원 데이터를 저차원 공간에 시각화하는 데 유용한 기술입니다.

다차원 데이터 시각화를 위한 MDS

소개