Transformación de Características por Hashing para una Clasificación Eficiente

Introducción

Esta práctica demuestra cómo utilizar la transformación de características de hash con árboles completamente aleatorios para mapear datos a una representación dispersa de alta dimensión que puede ser útil para la clasificación. El mapeo es completamente no supervisado y muy eficiente.

Consejos sobre la VM

Una vez que se haya iniciado la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.

A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de las operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.

Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje sus comentarios después de la sesión y lo resolveremos rápidamente para usted.

Importar bibliotecas

En este paso, importaremos las bibliotecas necesarias para esta práctica.

import numpy as np
import matplotlib.pyplot as plt

from sklearn.datasets import make_circles
from sklearn.ensemble import RandomTreesEmbedding, ExtraTreesClassifier
from sklearn.decomposition import TruncatedSVD
from sklearn.naive_bayes import BernoulliNB

Crear un conjunto de datos sintético

En este paso, crearemos un conjunto de datos sintético.

X, y = make_circles(factor=0.5, random_state=0, noise=0.05)

Usar RandomTreesEmbedding para transformar datos

En este paso, usaremos RandomTreesEmbedding para transformar los datos.

hasher = RandomTreesEmbedding(n_estimators=10, random_state=0, max_depth=3)
X_transformed = hasher.fit_transform(X)

Visualizar el resultado después de la reducción de dimensionalidad con Truncated SVD

En este paso, visualizaremos el resultado después de la reducción de dimensionalidad con Truncated SVD.

svd = TruncatedSVD(n_components=2)
X_reduced = svd.fit_transform(X_transformed)

Aprender un clasificador Naive Bayes en los datos transformados

En este paso, aprenderemos un clasificador Naive Bayes en los datos transformados.

nb = BernoulliNB()
nb.fit(X_transformed, y)

Aprender un ExtraTreesClassifier para comparación

En este paso, aprenderemos un ExtraTreesClassifier para comparación.

trees = ExtraTreesClassifier(max_depth=3, n_estimators=10, random_state=0)
trees.fit(X, y)

Diagrama de dispersión de datos originales y reducidos

En este paso, crearemos un diagrama de dispersión de datos originales y reducidos.

fig = plt.figure(figsize=(9, 8))

ax = plt.subplot(221)
ax.scatter(X[:, 0], X[:, 1], c=y, s=50, edgecolor="k")
ax.set_title("Original Data (2d)")
ax.set_xticks(())
ax.set_yticks(())

ax = plt.subplot(222)
ax.scatter(X_reduced[:, 0], X_reduced[:, 1], c=y, s=50, edgecolor="k")
ax.set_title(
    "Truncated SVD reduction (2d) of transformed data (%dd)" % X_transformed.shape[1]
)
ax.set_xticks(())
ax.set_yticks(())

Graficar la decisión en el espacio original

En este paso, graficaremos la decisión en el espacio original.

h = 0.01
x_min, x_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5
y_min, y_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

## transformar la cuadrícula usando RandomTreesEmbedding
transformed_grid = hasher.transform(np.c_[xx.ravel(), yy.ravel()])
y_grid_pred = nb.predict_proba(transformed_grid)[:, 1]

ax = plt.subplot(223)
ax.set_title("Naive Bayes en datos transformados")
ax.pcolormesh(xx, yy, y_grid_pred.reshape(xx.shape))
ax.scatter(X[:, 0], X[:, 1], c=y, s=50, edgecolor="k")
ax.set_ylim(-1.4, 1.4)
ax.set_xlim(-1.4, 1.4)
ax.set_xticks(())
ax.set_yticks(())

## transformar la cuadrícula usando ExtraTreesClassifier
y_grid_pred = trees.predict_proba(np.c_[xx.ravel(), yy.ravel()])[:, 1]

ax = plt.subplot(224)
ax.set_title("Predicciones de ExtraTrees")
ax.pcolormesh(xx, yy, y_grid_pred.reshape(xx.shape))
ax.scatter(X[:, 0], X[:, 1], c=y, s=50, edgecolor="k")
ax.set_ylim(-1.4, 1.4)
ax.set_xlim(-1.4, 1.4)
ax.set_xticks(())
ax.set_yticks(())

Resumen

En este laboratorio, aprendimos cómo usar la transformación de características mediante hash con árboles completamente aleatorios para mapear datos a una representación dispersa de alta dimensión que puede ser útil para la clasificación. También aprendimos cómo visualizar las particiones dadas por varios árboles y cómo la transformación se puede utilizar para la reducción no lineal de dimensionalidad o la clasificación no lineal. Luego demostramos cómo usar Naive Bayes en los datos transformados y lo comparamos con un ExtraTreesClassifier aprendido en los datos originales.