はじめに
このチュートリアルでは、データセット内の似たような特徴をマージするために特徴クラスタリングをどのように使用するかを示します。特徴クラスタリングは、最も重要な情報を保持しながら特徴の数を削減することで、高次元データセットを扱う際に役立ちます。
VM のヒント
VM の起動が完了したら、左上隅をクリックしてノートブックタブに切り替え、Jupyter Notebook を使って練習しましょう。
Jupyter Notebook が読み込み終わるまで数秒待つことがあります。Jupyter Notebook の制限により、操作の検証は自動化できません。
学習中に問題に直面した場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。
ライブラリのインポート
このステップでは、特徴クラスタリングを実行するために必要なライブラリをインポートします。
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets, cluster
from sklearn.feature_extraction.image import grid_to_graph
データセットの読み込み
このステップでは、scikit-learn から手書き数字のデータセットを読み込みます。このデータセットには、0 から 9 までの手書き数字の画像が含まれています。
digits = datasets.load_digits()
images = digits.images
X = np.reshape(images, (len(images), -1))
接続行列の定義
このステップでは、scikit-learn のgrid_to_graph関数を使って接続行列を定義します。この関数は、画像のピクセルグリッドに基づいて接続グラフを作成します。
connectivity = grid_to_graph(*images[0].shape)
特徴クラスタリングを実行する
このステップでは、scikit-learn のFeatureAgglomerationクラスを使って特徴クラスタリングを実行します。クラスタ数を 32 に設定します。
agglo = cluster.FeatureAgglomeration(connectivity=connectivity, n_clusters=32)
agglo.fit(X)
X_reduced = agglo.transform(X)
逆変換
このステップでは、縮小されたデータセットに対して逆変換を行い、元の特徴数を復元します。
X_restored = agglo.inverse_transform(X_reduced)
images_restored = np.reshape(X_restored, images.shape)
結果の可視化
このステップでは、元の画像、クラスタリングされた画像、および各クラスタに割り当てられたラベルを可視化します。
plt.figure(1, figsize=(4, 3.5))
plt.clf()
plt.subplots_adjust(left=0.01, right=0.99, bottom=0.01, top=0.91)
for i in range(4):
plt.subplot(3, 4, i + 1)
plt.imshow(images[i], cmap=plt.cm.gray, vmax=16, interpolation="nearest")
plt.xticks(())
plt.yticks(())
if i == 1:
plt.title("Original data")
plt.subplot(3, 4, 4 + i + 1)
plt.imshow(images_restored[i], cmap=plt.cm.gray, vmax=16, interpolation="nearest")
if i == 1:
plt.title("Agglomerated data")
plt.xticks(())
plt.yticks(())
plt.subplot(3, 4, 10)
plt.imshow(
np.reshape(agglo.labels_, images[0].shape),
interpolation="nearest",
cmap=plt.cm.nipy_spectral,
)
plt.xticks(())
plt.yticks(())
plt.title("Labels")
plt.show()
まとめ
このチュートリアルでは、データセット内の似た特徴をまとめるために特徴クラスタリングをどのように使用するかを学びました。特徴数を削減することで、機械学習アルゴリズムの性能を向上させることができる一方で、データセット内の最も重要な情報を維持することができます。