Преобразование признаков с использованием хэширования для эффективной классификации

Введение

В этом практическом занятии показано, как использовать преобразование признаков с использованием хэширования с помощью полностью случайных деревьев для отображения данных в высокомерное разреженное представление, которое может быть полезно для классификации. Отображение полностью не накапливает информацию и очень эффективно.

Советы по использованию ВМ

После запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Ноутбук, чтобы получить доступ к Jupyter Notebook для практики.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook не загрузится полностью. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Импорт библиотек

В этом шаге мы импортируем необходимые библиотеки для этого практического занятия.

import numpy as np
import matplotlib.pyplot as plt

from sklearn.datasets import make_circles
from sklearn.ensemble import RandomTreesEmbedding, ExtraTreesClassifier
from sklearn.decomposition import TruncatedSVD
from sklearn.naive_bayes import BernoulliNB

Создание синтетического набора данных

В этом шаге мы создадим синтетический набор данных.

X, y = make_circles(factor=0.5, random_state=0, noise=0.05)

Использование RandomTreesEmbedding для преобразования данных

В этом шаге мы будем использовать RandomTreesEmbedding для преобразования данных.

hasher = RandomTreesEmbedding(n_estimators=10, random_state=0, max_depth=3)
X_transformed = hasher.fit_transform(X)

Визуализация результата после понижения размерности с использованием Truncated SVD

В этом шаге мы визуализируем результат после понижения размерности с использованием Truncated SVD.

svd = TruncatedSVD(n_components=2)
X_reduced = svd.fit_transform(X_transformed)

Обучение классификатора наивного Байеса на преобразованных данных

В этом шаге мы обучим классификатор наивного Байеса на преобразованных данных.

nb = BernoulliNB()
nb.fit(X_transformed, y)

Обучение классификатора ExtraTreesClassifier для сравнения

В этом шаге мы обучим классификатор ExtraTreesClassifier для сравнения.

trees = ExtraTreesClassifier(max_depth=3, n_estimators=10, random_state=0)
trees.fit(X, y)

Диаграмма рассеяния исходных и уменьшенных данных

В этом шаге мы создадим диаграмму рассеяния исходных и уменьшенных данных.

fig = plt.figure(figsize=(9, 8))

ax = plt.subplot(221)
ax.scatter(X[:, 0], X[:, 1], c=y, s=50, edgecolor="k")
ax.set_title("Original Data (2d)")
ax.set_xticks(())
ax.set_yticks(())

ax = plt.subplot(222)
ax.scatter(X_reduced[:, 0], X_reduced[:, 1], c=y, s=50, edgecolor="k")
ax.set_title(
    "Truncated SVD reduction (2d) of transformed data (%dd)" % X_transformed.shape[1]
)
ax.set_xticks(())
ax.set_yticks(())

Построение решения в исходном пространстве

В этом шаге мы построим решение в исходном пространстве.

h = 0.01
x_min, x_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5
y_min, y_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

## transform grid using RandomTreesEmbedding
transformed_grid = hasher.transform(np.c_[xx.ravel(), yy.ravel()])
y_grid_pred = nb.predict_proba(transformed_grid)[:, 1]

ax = plt.subplot(223)
ax.set_title("Naive Bayes on Transformed data")
ax.pcolormesh(xx, yy, y_grid_pred.reshape(xx.shape))
ax.scatter(X[:, 0], X[:, 1], c=y, s=50, edgecolor="k")
ax.set_ylim(-1.4, 1.4)
ax.set_xlim(-1.4, 1.4)
ax.set_xticks(())
ax.set_yticks(())

## transform grid using ExtraTreesClassifier
y_grid_pred = trees.predict_proba(np.c_[xx.ravel(), yy.ravel()])[:, 1]

ax = plt.subplot(224)
ax.set_title("ExtraTrees predictions")
ax.pcolormesh(xx, yy, y_grid_pred.reshape(xx.shape))
ax.scatter(X[:, 0], X[:, 1], c=y, s=50, edgecolor="k")
ax.set_ylim(-1.4, 1.4)
ax.set_xlim(-1.4, 1.4)
ax.set_xticks(())
ax.set_yticks(())

Резюме

В этом практическом занятии мы научились использовать преобразование признаков с использованием полностью случайных деревьев для отображения данных в высокомерное, разреженное представление, которое может быть полезно для классификации. Мы также узнали, как визуализировать разбиения, заданные несколькими деревьями, и как преобразование может быть использовано для нелинейного снижения размерности или нелинейной классификации. Затем мы показали, как использовать наивный Байес на преобразованных данных и сравнили его с классификатором ExtraTreesClassifier, обученным на исходных данных.