無監督型異常検出 | 機械学習アルゴリズム

はじめに

Local Outlier Factor (LOF) アルゴリズムは、データ内の異常を検出するために使用される非監督学習手法です。このアルゴリズムは、与えられたデータポイントの近傍点に対する局所的な密度偏差を計算し、近傍点よりも大幅に低い密度を持つサンプルをアウトライアとして考えます。

この実験では、LOF を使用してデータセット内のアウトライアを検出します。

VM のヒント

VM の起動が完了したら、左上隅をクリックして ノートブック タブに切り替え、Jupyter Notebook を使用して練習します。

場合によっては、Jupyter Notebook が読み込み完了するまで数秒待つ必要があります。Jupyter Notebook の制限により、操作の検証は自動化できません。

学習中に問題に遭遇した場合は、Labby にお問い合わせください。セッション後にフィードバックを提供してください。すぐに問題を解決いたします。

ライブラリのインポート

それぞれデータ操作と可視化のために numpy と matplotlib をインポートします。また、アウトライア検出のために sklearn.neighbors から LocalOutlierFactor をインポートします。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import LocalOutlierFactor

アウトライア付きのデータ生成

100 個の内点と 20 個のアウトライアを含む 120 個のデータポイントからなるデータセットを生成します。その後、データをプロットしてアウトライアを可視化します。

np.random.seed(42)

X_inliers = 0.3 * np.random.randn(100, 2)
X_inliers = np.r_[X_inliers + 2, X_inliers - 2]
X_outliers = np.random.uniform(low=-4, high=4, size=(20, 2))
X = np.r_[X_inliers, X_outliers]

plt.scatter(X[:, 0], X[:, 1], color="k", s=3.0)
plt.axis("tight")
plt.xlim((-5, 5))
plt.ylim((-5, 5))
plt.xlabel("Data points")
plt.title("Data with Outliers")
plt.show()

アウトライア検出のためのモデルの適合

アウトライア検出のためのモデルを適合させ、訓練サンプルの予測ラベルを計算するために LocalOutlierFactor を使用します。

clf = LocalOutlierFactor(n_neighbors=20, contamination=0.1)
y_pred = clf.fit_predict(X)
X_scores = clf.negative_outlier_factor_

結果のプロット

アウトライアスコアに比例する半径の円を使ってデータポイントをプロットします。

plt.scatter(X[:, 0], X[:, 1], color="k", s=3.0, label="Data points")
## plot circles with radius proportional to the outlier scores
radius = (X_scores.max() - X_scores) / (X_scores.max() - X_scores.min())
scatter = plt.scatter(
    X[:, 0],
    X[:, 1],
    s=1000 * radius,
    edgecolors="r",
    facecolors="none",
    label="Outlier scores",
)
plt.axis("tight")
plt.xlim((-5, 5))
plt.ylim((-5, 5))
plt.xlabel("Outlier Detection")
plt.legend(
    handler_map={scatter: HandlerPathCollection(update_func=update_legend_marker_size)}
)
plt.title("Local Outlier Factor (LOF)")
plt.show()

まとめ

この実験では、Local Outlier Factor (LOF) を使ってアウトライア検出を行う方法を学びました。アウトライア付きのデータセットを生成し、アウトライア検出のためのモデルを適合させ、結果をプロットしました。LOF は、幅広いアプリケーションにおいて異常を検出するために使用できる強力な無監督学習手法です。

LOF によるアウトライア検出