Transformação de Recursos por Hashing para Classificação Eficiente

Introdução

Este laboratório demonstra como usar a transformação de recursos de hash usando árvores totalmente aleatórias para mapear dados para uma representação esparsa de alta dimensionalidade que pode ser útil para classificação. O mapeamento é totalmente não supervisionado e muito eficiente.

Dicas da Máquina Virtual

Após o início da VM, clique no canto superior esquerdo para mudar para a aba Notebook para acessar o Jupyter Notebook para praticar.

Às vezes, pode ser necessário aguardar alguns segundos para que o Jupyter Notebook termine de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se você encontrar problemas durante o aprendizado, sinta-se à vontade para perguntar ao Labby. Forneça feedback após a sessão e resolveremos o problema rapidamente para você.

Importar Bibliotecas

Neste passo, iremos importar as bibliotecas necessárias para este laboratório.

import numpy as np
import matplotlib.pyplot as plt

from sklearn.datasets import make_circles
from sklearn.ensemble import RandomTreesEmbedding, ExtraTreesClassifier
from sklearn.decomposition import TruncatedSVD
from sklearn.naive_bayes import BernoulliNB

Criar Conjunto de Dados Sintético

Neste passo, criaremos um conjunto de dados sintético.

X, y = make_circles(factor=0.5, random_state=0, noise=0.05)

Utilizar RandomTreesEmbedding para Transformar Dados

Neste passo, utilizaremos RandomTreesEmbedding para transformar os dados.

hasher = RandomTreesEmbedding(n_estimators=10, random_state=0, max_depth=3)
X_transformed = hasher.fit_transform(X)

Visualizar o Resultado Após Redução de Dimensionalidade usando Truncated SVD

Neste passo, visualizaremos o resultado após a redução de dimensionalidade usando Truncated SVD.

svd = TruncatedSVD(n_components=2)
X_reduced = svd.fit_transform(X_transformed)

Treinar um Classificador Naive Bayes nos Dados Transformados

Neste passo, treinaremos um classificador Naive Bayes nos dados transformados.

nb = BernoulliNB()
nb.fit(X_transformed, y)

Treinar um ExtraTreesClassifier para Comparação

Neste passo, treinaremos um classificador ExtraTreesClassifier para comparação.

trees = ExtraTreesClassifier(max_depth=3, n_estimators=10, random_state=0)
trees.fit(X, y)

Gráfico de Dispersão dos Dados Originais e Reduzidos

Neste passo, criaremos um gráfico de dispersão dos dados originais e reduzidos.

fig = plt.figure(figsize=(9, 8))

ax = plt.subplot(221)
ax.scatter(X[:, 0], X[:, 1], c=y, s=50, edgecolor="k")
ax.set_title("Dados Originais (2d)")
ax.set_xticks(())
ax.set_yticks(())

ax = plt.subplot(222)
ax.scatter(X_reduced[:, 0], X_reduced[:, 1], c=y, s=50, edgecolor="k")
ax.set_title(
    "Redução por SVD truncada (2d) dos dados transformados (%dd)" % X_transformed.shape[1]
)
ax.set_xticks(())
ax.set_yticks(())

Plotar Decisão no Espaço Original

Neste passo, plotaremos a decisão no espaço original.

h = 0.01
x_min, x_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5
y_min, y_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

## transform grid using RandomTreesEmbedding
transformed_grid = hasher.transform(np.c_[xx.ravel(), yy.ravel()])
y_grid_pred = nb.predict_proba(transformed_grid)[:, 1]

ax = plt.subplot(223)
ax.set_title("Naive Bayes nos dados transformados")
ax.pcolormesh(xx, yy, y_grid_pred.reshape(xx.shape))
ax.scatter(X[:, 0], X[:, 1], c=y, s=50, edgecolor="k")
ax.set_ylim(-1.4, 1.4)
ax.set_xlim(-1.4, 1.4)
ax.set_xticks(())
ax.set_yticks(())

## transform grid using ExtraTreesClassifier
y_grid_pred = trees.predict_proba(np.c_[xx.ravel(), yy.ravel()])[:, 1]

ax = plt.subplot(224)
ax.set_title("Predições ExtraTrees")
ax.pcolormesh(xx, yy, y_grid_pred.reshape(xx.shape))
ax.scatter(X[:, 0], X[:, 1], c=y, s=50, edgecolor="k")
ax.set_ylim(-1.4, 1.4)
ax.set_xlim(-1.4, 1.4)
ax.set_xticks(())
ax.set_yticks(())

Resumo

Neste laboratório, aprendemos a utilizar a transformação de recursos por hashing usando árvores totalmente aleatórias para mapear dados para uma representação esparsa de alta dimensionalidade, que pode ser útil para classificação. Também aprendemos a visualizar as partições fornecidas por várias árvores e como a transformação pode ser usada para redução de dimensionalidade não linear ou classificação não linear. Em seguida, demonstramos como usar Naive Bayes nos dados transformados e comparamos com um ExtraTreesClassifier aprendido nos dados originais.