Обнаружение аномалий без учителя | Алгоритмы машинного обучения

Введение

Алгоритм Local Outlier Factor (LOF) - это метод машинного обучения без учителя, который используется для обнаружения аномалий в данных. Он вычисляет локальное отклонение плотности заданной точки данных относительно ее соседей и считает выбросами образцы, имеющие значительно меньшую плотность, чем их соседи.

В этом лабе мы будем использовать LOF для обнаружения выбросов в наборе данных.

Советы по работе с ВМ

После запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook не загрузится полностью. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL sklearn(("Sklearn")) -.-> sklearn/CoreModelsandAlgorithmsGroup(["Core Models and Algorithms"]) ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) sklearn/CoreModelsandAlgorithmsGroup -.-> sklearn/neighbors("Nearest Neighbors") ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills sklearn/neighbors -.-> lab-49201{{"Обнаружение выбросов с использованием LOF"}} ml/sklearn -.-> lab-49201{{"Обнаружение выбросов с использованием LOF"}} end

Импорт библиотек

Мы импортируем numpy и matplotlib для манипуляций с данными и визуализации соответственно. Также импортируем LocalOutlierFactor из sklearn.neighbors для обнаружения выбросов.

import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import LocalOutlierFactor

Генерация данных с выбросами

Мы сгенерируем набор данных из 120 точек данных, в котором 100 - это нормальные (inliers) точки, а 20 - выбросы (outliers). Затем построим график данных, чтобы визуализировать выбросы.

np.random.seed(42)

X_inliers = 0.3 * np.random.randn(100, 2)
X_inliers = np.r_[X_inliers + 2, X_inliers - 2]
X_outliers = np.random.uniform(low=-4, high=4, size=(20, 2))
X = np.r_[X_inliers, X_outliers]

plt.scatter(X[:, 0], X[:, 1], color="k", s=3.0)
plt.axis("tight")
plt.xlim((-5, 5))
plt.ylim((-5, 5))
plt.xlabel("Data points")
plt.title("Data with Outliers")
plt.show()

Настройка модели для обнаружения выбросов

Мы будем использовать LocalOutlierFactor для настройки модели для обнаружения выбросов и вычисления предсказанных меток для обучающих образцов.

clf = LocalOutlierFactor(n_neighbors=20, contamination=0.1)
y_pred = clf.fit_predict(X)
X_scores = clf.negative_outlier_factor_

Построение результатов

Мы построим точки данных в виде кругов, радиус которых пропорционален оценкам выбросов.

plt.scatter(X[:, 0], X[:, 1], color="k", s=3.0, label="Data points")
## plot circles with radius proportional to the outlier scores
radius = (X_scores.max() - X_scores) / (X_scores.max() - X_scores.min())
scatter = plt.scatter(
    X[:, 0],
    X[:, 1],
    s=1000 * radius,
    edgecolors="r",
    facecolors="none",
    label="Outlier scores",
)
plt.axis("tight")
plt.xlim((-5, 5))
plt.ylim((-5, 5))
plt.xlabel("Outlier Detection")
plt.legend(
    handler_map={scatter: HandlerPathCollection(update_func=update_legend_marker_size)}
)
plt.title("Local Outlier Factor (LOF)")
plt.show()

Резюме

В этом практическом занятии мы научились использовать Local Outlier Factor (LOF) для обнаружения выбросов. Мы сгенерировали набор данных с выбросами, настроили модель для обнаружения выбросов и построили результаты. LOF - это мощный метод машинного обучения без учителя, который можно использовать для обнаружения аномалий в широком спектре приложений.