Einführung
t-SNE (t-Distributed Stochastic Neighbor Embedding) ist eine Technik zur Dimensionsreduzierung, die zur Visualisierung von Hochdimensionaldatenmengen verwendet wird. In diesem Tutorial wird Ihnen der Prozess der Verwendung von t-SNE zur Visualisierung von Datenmengen mit der scikit-learn-Bibliothek in Python vermittelt.
Tipps für die VM
Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.
Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund der Einschränkungen in Jupyter Notebook nicht automatisiert werden.
Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.
Bibliotheken importieren
Wir beginnen mit dem Import der erforderlichen Bibliotheken für dieses Tutorial.
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.ticker import NullFormatter
from sklearn import manifold, datasets
from time import time
Daten erstellen
Wir werden drei verschiedene Datensätze erstellen, um die Verwendung von t-SNE zu veranschaulichen. Der erste Datensatz wird aus zwei konzentrischen Kreisen bestehen.
n_samples = 150
n_components = 2
X, y = datasets.make_circles(
n_samples=n_samples, factor=0.5, noise=0.05, random_state=0
)
red = y == 0
green = y == 1
Daten visualisieren
Wir können den Datensatz mit den konzentrischen Kreisen mithilfe eines Scatterplots visualisieren.
ax = plt.subplot(1, 1, 1)
ax.scatter(X[red, 0], X[red, 1], c="r")
ax.scatter(X[green, 0], X[green, 1], c="g")
ax.xaxis.set_major_formatter(NullFormatter())
ax.yaxis.set_major_formatter(NullFormatter())
plt.axis("tight")
t-SNE auf die Daten anwenden
Als nächstes werden wir t-SNE auf den Datensatz mit den konzentrischen Kreisen anwenden.
t0 = time()
tsne = manifold.TSNE(
n_components=n_components,
init="random",
random_state=0,
perplexity=perplexity,
n_iter=300,
)
Y = tsne.fit_transform(X)
t1 = time()
t-SNE-Ergebnisse visualisieren
Schließlich können wir die t-SNE-Ergebnisse mithilfe eines Scatterplots visualisieren.
ax = plt.subplot(1, 1, 1)
ax.scatter(Y[red, 0], Y[red, 1], c="r")
ax.scatter(Y[green, 0], Y[green, 1], c="g")
ax.xaxis.set_major_formatter(NullFormatter())
ax.yaxis.set_major_formatter(NullFormatter())
plt.axis("tight")
Wiederholen für andere Datensätze
Wir können Schritte 2 - 5 für andere Datensätze wiederholen, wie z.B. eine S-Kurve und ein 2D-Einheitsgitter.
Zusammenfassung
In diesem Tutorial wurde ein Schritt-für-Schritt-Leitfaden zur Verwendung von t-SNE zum Visualisieren von hochdimensionalen Datensätzen mit der scikit-learn-Bibliothek in Python bereitgestellt. Wir haben gelernt, wie man Daten erstellt, Daten visualisiert, t-SNE auf Daten anwendet und die t-SNE-Ergebnisse visualisiert.