Tutorial de t-SNE | Reducción de dimensionalidad | Visualización de datos

Introducción

t-SNE (t-Distribuida Inmersión Vecina Estocástica) es una técnica de reducción de dimensionalidad utilizada para visualizar conjuntos de datos de alta dimensión. Este tutorial lo guiará a través del proceso de uso de t-SNE para visualizar conjuntos de datos utilizando la biblioteca scikit-learn de Python.

Consejos sobre la VM

Una vez finalizada la inicialización de la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.

A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de las operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.

Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje su retroalimentación después de la sesión y lo resolveremos rápidamente para usted.

Importar bibliotecas

Comenzamos importando las bibliotecas necesarias para este tutorial.

import numpy as np
import matplotlib.pyplot as plt

from matplotlib.ticker import NullFormatter
from sklearn import manifold, datasets
from time import time

Crear datos

Vamos a crear tres conjuntos de datos diferentes para ilustrar el uso de t-SNE. El primer conjunto de datos será dos círculos concéntricos.

n_samples = 150
n_components = 2

X, y = datasets.make_circles(
    n_samples=n_samples, factor=0.5, noise=0.05, random_state=0
)

red = y == 0
green = y == 1

Visualizar datos

Podemos visualizar el conjunto de datos de círculos concéntricos utilizando un diagrama de dispersión.

ax = plt.subplot(1, 1, 1)
ax.scatter(X[red, 0], X[red, 1], c="r")
ax.scatter(X[green, 0], X[green, 1], c="g")
ax.xaxis.set_major_formatter(NullFormatter())
ax.yaxis.set_major_formatter(NullFormatter())
plt.axis("tight")

Aplicar t-SNE a los datos

A continuación, aplicaremos t-SNE al conjunto de datos de círculos concéntricos.

t0 = time()
tsne = manifold.TSNE(
    n_components=n_components,
    init="random",
    random_state=0,
    perplexity=perplexity,
    n_iter=300,
)
Y = tsne.fit_transform(X)
t1 = time()

Visualizar los resultados de t-SNE

Finalmente, podemos visualizar los resultados de t-SNE utilizando un diagrama de dispersión.

ax = plt.subplot(1, 1, 1)
ax.scatter(Y[red, 0], Y[red, 1], c="r")
ax.scatter(Y[green, 0], Y[green, 1], c="g")
ax.xaxis.set_major_formatter(NullFormatter())
ax.yaxis.set_major_formatter(NullFormatter())
plt.axis("tight")

Repetir para otros conjuntos de datos

Podemos repetir los pasos 2-5 para otros conjuntos de datos, como una curva S y una cuadrícula uniforme 2D.

Resumen

Este tutorial proporcionó una guía paso a paso para utilizar t-SNE para visualizar conjuntos de datos de alta dimensión utilizando la biblioteca scikit-learn de Python. Aprendimos cómo crear datos, visualizar datos, aplicar t-SNE a datos y visualizar los resultados de t-SNE.

Visualizar datos de alta dimensión con t-SNE