t-SNE Tutorial | Dimensionsreduzierung | Datenvisualisierung

Einführung

t-SNE (t-Distributed Stochastic Neighbor Embedding) ist eine Technik zur Dimensionsreduzierung, die zur Visualisierung von Hochdimensionaldatenmengen verwendet wird. In diesem Tutorial wird Ihnen der Prozess der Verwendung von t-SNE zur Visualisierung von Datenmengen mit der scikit-learn-Bibliothek in Python vermittelt.

Tipps für die VM

Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund der Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Bibliotheken importieren

Wir beginnen mit dem Import der erforderlichen Bibliotheken für dieses Tutorial.

import numpy as np
import matplotlib.pyplot as plt

from matplotlib.ticker import NullFormatter
from sklearn import manifold, datasets
from time import time

Daten erstellen

Wir werden drei verschiedene Datensätze erstellen, um die Verwendung von t-SNE zu veranschaulichen. Der erste Datensatz wird aus zwei konzentrischen Kreisen bestehen.

n_samples = 150
n_components = 2

X, y = datasets.make_circles(
    n_samples=n_samples, factor=0.5, noise=0.05, random_state=0
)

red = y == 0
green = y == 1

Daten visualisieren

Wir können den Datensatz mit den konzentrischen Kreisen mithilfe eines Scatterplots visualisieren.

ax = plt.subplot(1, 1, 1)
ax.scatter(X[red, 0], X[red, 1], c="r")
ax.scatter(X[green, 0], X[green, 1], c="g")
ax.xaxis.set_major_formatter(NullFormatter())
ax.yaxis.set_major_formatter(NullFormatter())
plt.axis("tight")

t-SNE auf die Daten anwenden

Als nächstes werden wir t-SNE auf den Datensatz mit den konzentrischen Kreisen anwenden.

t0 = time()
tsne = manifold.TSNE(
    n_components=n_components,
    init="random",
    random_state=0,
    perplexity=perplexity,
    n_iter=300,
)
Y = tsne.fit_transform(X)
t1 = time()

t-SNE-Ergebnisse visualisieren

Schließlich können wir die t-SNE-Ergebnisse mithilfe eines Scatterplots visualisieren.

ax = plt.subplot(1, 1, 1)
ax.scatter(Y[red, 0], Y[red, 1], c="r")
ax.scatter(Y[green, 0], Y[green, 1], c="g")
ax.xaxis.set_major_formatter(NullFormatter())
ax.yaxis.set_major_formatter(NullFormatter())
plt.axis("tight")

Wiederholen für andere Datensätze

Wir können Schritte 2 - 5 für andere Datensätze wiederholen, wie z.B. eine S-Kurve und ein 2D-Einheitsgitter.

Zusammenfassung

In diesem Tutorial wurde ein Schritt-für-Schritt-Leitfaden zur Verwendung von t-SNE zum Visualisieren von hochdimensionalen Datensätzen mit der scikit-learn-Bibliothek in Python bereitgestellt. Wir haben gelernt, wie man Daten erstellt, Daten visualisiert, t-SNE auf Daten anwendet und die t-SNE-Ergebnisse visualisiert.

Visualisiere hochdimensionale Daten mit t-SNE