ハッシュ化特徴変換

Machine LearningMachine LearningBeginner
今すぐ練習

This tutorial is from open-source community. Access the source code

💡 このチュートリアルは英語版からAIによって翻訳されています。原文を確認するには、 ここをクリックしてください

はじめに

この実験では、完全にランダムな木を使用したハッシュ機能変換を使ってデータを高次元の疎な表現にマッピングする方法を示します。このマッピングは完全に無監督で、非常に効率的です。

VMのヒント

VMの起動が完了したら、左上隅をクリックしてノートブックタブに切り替え、Jupyter Notebookを使って練習します。

時々、Jupyter Notebookが読み込み終了するまで数秒待つ必要があります。Jupyter Notebookの制限により、操作の検証は自動化できません。

学習中に問題に遭遇した場合は、Labbyにお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) sklearn(("Sklearn")) -.-> sklearn/CoreModelsandAlgorithmsGroup(["Core Models and Algorithms"]) sklearn(("Sklearn")) -.-> sklearn/AdvancedDataAnalysisandDimensionalityReductionGroup(["Advanced Data Analysis and Dimensionality Reduction"]) sklearn(("Sklearn")) -.-> sklearn/UtilitiesandDatasetsGroup(["Utilities and Datasets"]) sklearn/CoreModelsandAlgorithmsGroup -.-> sklearn/naive_bayes("Naive Bayes") sklearn/CoreModelsandAlgorithmsGroup -.-> sklearn/ensemble("Ensemble Methods") sklearn/AdvancedDataAnalysisandDimensionalityReductionGroup -.-> sklearn/decomposition("Matrix Decomposition") sklearn/UtilitiesandDatasetsGroup -.-> sklearn/datasets("Datasets") ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills sklearn/naive_bayes -.-> lab-49253{{"ハッシュ化特徴変換"}} sklearn/ensemble -.-> lab-49253{{"ハッシュ化特徴変換"}} sklearn/decomposition -.-> lab-49253{{"ハッシュ化特徴変換"}} sklearn/datasets -.-> lab-49253{{"ハッシュ化特徴変換"}} ml/sklearn -.-> lab-49253{{"ハッシュ化特徴変換"}} end

ライブラリのインポート

このステップでは、この実験に必要なライブラリをインポートします。

import numpy as np
import matplotlib.pyplot as plt

from sklearn.datasets import make_circles
from sklearn.ensemble import RandomTreesEmbedding, ExtraTreesClassifier
from sklearn.decomposition import TruncatedSVD
from sklearn.naive_bayes import BernoulliNB

合成データセットの作成

このステップでは、合成データセットを作成します。

X, y = make_circles(factor=0.5, random_state=0, noise=0.05)

RandomTreesEmbeddingを使ってデータを変換する

このステップでは、RandomTreesEmbeddingを使ってデータを変換します。

hasher = RandomTreesEmbedding(n_estimators=10, random_state=0, max_depth=3)
X_transformed = hasher.fit_transform(X)

トランケートされたSVDを使った次元削減後の結果を可視化する

このステップでは、トランケートされたSVDを使った次元削減後の結果を可視化します。

svd = TruncatedSVD(n_components=2)
X_reduced = svd.fit_transform(X_transformed)

変換後のデータに対してナイーブベイズ分類器を学習する

このステップでは、変換後のデータに対してナイーブベイズ分類器を学習します。

nb = BernoulliNB()
nb.fit(X_transformed, y)

比較用にExtraTreesClassifierを学習する

このステップでは、比較用にExtraTreesClassifierを学習します。

trees = ExtraTreesClassifier(max_depth=3, n_estimators=10, random_state=0)
trees.fit(X, y)

元のデータと次元削減後のデータの散布図

このステップでは、元のデータと次元削減後のデータの散布図を作成します。

fig = plt.figure(figsize=(9, 8))

ax = plt.subplot(221)
ax.scatter(X[:, 0], X[:, 1], c=y, s=50, edgecolor="k")
ax.set_title("Original Data (2d)")
ax.set_xticks(())
ax.set_yticks(())

ax = plt.subplot(222)
ax.scatter(X_reduced[:, 0], X_reduced[:, 1], c=y, s=50, edgecolor="k")
ax.set_title(
    "Truncated SVD reduction (2d) of transformed data (%dd)" % X_transformed.shape[1]
)
ax.set_xticks(())
ax.set_yticks(())

元の空間での決定をプロットする

このステップでは、元の空間での決定をプロットします。

h = 0.01
x_min, x_max = X[:, 0].min() - 0.5, X[:, 0].max() + 0.5
y_min, y_max = X[:, 1].min() - 0.5, X[:, 1].max() + 0.5
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

## transform grid using RandomTreesEmbedding
transformed_grid = hasher.transform(np.c_[xx.ravel(), yy.ravel()])
y_grid_pred = nb.predict_proba(transformed_grid)[:, 1]

ax = plt.subplot(223)
ax.set_title("Naive Bayes on Transformed data")
ax.pcolormesh(xx, yy, y_grid_pred.reshape(xx.shape))
ax.scatter(X[:, 0], X[:, 1], c=y, s=50, edgecolor="k")
ax.set_ylim(-1.4, 1.4)
ax.set_xlim(-1.4, 1.4)
ax.set_xticks(())
ax.set_yticks(())

## transform grid using ExtraTreesClassifier
y_grid_pred = trees.predict_proba(np.c_[xx.ravel(), yy.ravel()])[:, 1]

ax = plt.subplot(224)
ax.set_title("ExtraTrees predictions")
ax.pcolormesh(xx, yy, y_grid_pred.reshape(xx.shape))
ax.scatter(X[:, 0], X[:, 1], c=y, s=50, edgecolor="k")
ax.set_ylim(-1.4, 1.4)
ax.set_xlim(-1.4, 1.4)
ax.set_xticks(())
ax.set_yticks(())

まとめ

この実験では、完全にランダムな木を使ったハッシュ化特徴変換を使ってデータを高次元の疎な表現にマッピングする方法を学びました。この表現は分類に役立つ可能性があります。また、いくつかの木によって与えられる分割を視覚化する方法と、変換が非線形次元削減や非線形分類にどのように使われるかを学びました。そして、変換後のデータに対してナイーブベイズをどのように使うかを示し、元のデータで学習したExtraTreesClassifierと比較しました。