用于高效分类的哈希特征变换

简介

本实验展示了如何使用完全随机树进行哈希特征变换，将数据映射到高维稀疏表示，这可能对分类有用。该映射完全无监督且非常高效。

虚拟机使用提示

虚拟机启动完成后，点击左上角切换到“笔记本”标签，以访问 Jupyter Notebook 进行练习。

有时，你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制，操作验证无法自动化。

如果你在学习过程中遇到问题，随时向 Labby 提问。课程结束后提供反馈，我们会及时为你解决问题。

导入库

在这一步中，我们将为本实验导入必要的库。

import numpy as np
import matplotlib.pyplot as plt

from sklearn.datasets import make_circles
from sklearn.ensemble import RandomTreesEmbedding, ExtraTreesClassifier
from sklearn.decomposition import TruncatedSVD
from sklearn.naive_bayes import BernoulliNB

创建合成数据集

在这一步中，我们将创建一个合成数据集。

X, y = make_circles(factor=0.5, random_state=0, noise=0.05)

使用随机树嵌入变换数据

在这一步中，我们将使用随机树嵌入来变换数据。

hasher = RandomTreesEmbedding(n_estimators=10, random_state=0, max_depth=3)
X_transformed = hasher.fit_transform(X)

使用截断奇异值分解（Truncated SVD）可视化降维后的结果

在这一步中，我们将使用截断奇异值分解来可视化降维后的结果。

svd = TruncatedSVD(n_components=2)
X_reduced = svd.fit_transform(X_transformed)

在变换后的数据上学习朴素贝叶斯分类器

在这一步中，我们将在变换后的数据上学习一个朴素贝叶斯分类器。

nb = BernoulliNB()
nb.fit(X_transformed, y)

学习一个 ExtraTreesClassifier 用于比较

在这一步中，我们将学习一个 ExtraTreesClassifier 用于比较。

trees = ExtraTreesClassifier(max_depth=3, n_estimators=10, random_state=0)
trees.fit(X, y)

原始数据与降维后数据的散点图

在这一步中，我们将创建原始数据与降维后数据的散点图。

fig = plt.figure(figsize=(9, 8))

ax = plt.subplot(221)
ax.scatter(X[:, 0], X[:, 1], c=y, s=50, edgecolor="k")
ax.set_title("Original Data (2d)")
ax.set_xticks(())
ax.set_yticks(())

ax = plt.subplot(222)
ax.scatter(X_reduced[:, 0], X_reduced[:, 1], c=y, s=50, edgecolor="k")
ax.set_title(
    "Truncated SVD reduction (2d) of transformed data (%dd)" % X_transformed.shape[1]
)
ax.set_xticks(())
ax.set_yticks(())

在原始空间中绘制决策边界

在这一步中，我们将在原始空间中绘制决策边界。

h = 0.01
x_min, x_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5
y_min, y_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

## 使用随机树嵌入变换网格
transformed_grid = hasher.transform(np.c_[xx.ravel(), yy.ravel()])
y_grid_pred = nb.predict_proba(transformed_grid)[:, 1]

ax = plt.subplot(223)
ax.set_title("朴素贝叶斯在变换后的数据上")
ax.pcolormesh(xx, yy, y_grid_pred.reshape(xx.shape))
ax.scatter(X[:, 0], X[:, 1], c=y, s=50, edgecolor="k")
ax.set_ylim(-1.4, 1.4)
ax.set_xlim(-1.4, 1.4)
ax.set_xticks(())
ax.set_yticks(())

## 使用 ExtraTreesClassifier 变换网格
y_grid_pred = trees.predict_proba(np.c_[xx.ravel(), yy.ravel()])[:, 1]

ax = plt.subplot(224)
ax.set_title("ExtraTrees 预测")
ax.pcolormesh(xx, yy, y_grid_pred.reshape(xx.shape))
ax.scatter(X[:, 0], X[:, 1], c=y, s=50, edgecolor="k")
ax.set_ylim(-1.4, 1.4)
ax.set_xlim(-1.4, 1.4)
ax.set_xticks(())
ax.set_yticks(())

总结

在这个实验中，我们学习了如何使用完全随机树进行哈希特征变换，将数据映射到一个高维、稀疏的表示形式，这对于分类可能是有用的。我们还学习了如何可视化由几棵树给出的划分，以及这种变换如何用于非线性降维和非线性分类。然后，我们展示了如何在变换后的数据上使用朴素贝叶斯，并将其与在原始数据上学习的 ExtraTreesClassifier 进行比较。