Ausreißerdetektion mit LOF

Machine LearningMachine LearningBeginner
Jetzt üben

This tutorial is from open-source community. Access the source code

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

Der Local Outlier Factor (LOF)-Algorithmus ist eine methode für unüberwachtes maschinelles lernen, die zur detektion von anomalien in daten verwendet wird. Er berechnet die lokale dichtigkeitsabweichung eines gegebenen datenpunkts im verhältnis zu seinen nachbarn und betrachtet als ausreißer die muster, die eine wesentlich geringere dichtigkeit als ihre nachbarn haben.

In diesem lab werden wir LOF verwenden, um ausreißer in einem datensatz zu detektieren.

VM Tipps

Nachdem der VM-start abgeschlossen ist, klicken Sie in der oberen linken ecke, um zur Notebook-Registerkarte zu wechseln und Jupyter Notebook für die übung zu nutzen.

Manchmal müssen Sie einige sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die validierung von operationen kann aufgrund von einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie während des lernens probleme haben, können Sie Labby gerne fragen. Geben Sie nach der session feedback, und wir werden das problem für Sie prompt beheben.


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL sklearn(("Sklearn")) -.-> sklearn/CoreModelsandAlgorithmsGroup(["Core Models and Algorithms"]) ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) sklearn/CoreModelsandAlgorithmsGroup -.-> sklearn/neighbors("Nearest Neighbors") ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills sklearn/neighbors -.-> lab-49201{{"Ausreißerdetektion mit LOF"}} ml/sklearn -.-> lab-49201{{"Ausreißerdetektion mit LOF"}} end

Bibliotheken importieren

Wir werden numpy und matplotlib für die datenmanipulation und -visualisierung respektive importieren. Wir werden auch LocalOutlierFactor aus sklearn.neighbors für die ausreißerdetektion importieren.

import numpy as np
import matplotlib.pyplot as plt
from sklearn.neighbors import LocalOutlierFactor

Daten mit Ausreißern generieren

Wir werden einen Datensatz von 120 Datenpunkten mit 100 Innerpunkten und 20 Ausreißern generieren. Anschließend werden wir die Daten plotten, um die Ausreißer zu visualisieren.

np.random.seed(42)

X_inliers = 0.3 * np.random.randn(100, 2)
X_inliers = np.r_[X_inliers + 2, X_inliers - 2]
X_outliers = np.random.uniform(low=-4, high=4, size=(20, 2))
X = np.r_[X_inliers, X_outliers]

plt.scatter(X[:, 0], X[:, 1], color="k", s=3.0)
plt.axis("tight")
plt.xlim((-5, 5))
plt.ylim((-5, 5))
plt.xlabel("Data points")
plt.title("Data with Outliers")
plt.show()

Modell für die Ausreißerdetektion anpassen

Wir werden LocalOutlierFactor verwenden, um das Modell für die Ausreißerdetektion anzupassen und die vorhergesagten labels der trainsierungsstichproben zu berechnen.

clf = LocalOutlierFactor(n_neighbors=20, contamination=0.1)
y_pred = clf.fit_predict(X)
X_scores = clf.negative_outlier_factor_

Ergebnisse plotten

Wir werden die datenpunkte mit kreisen plotten, deren radius proportional zu den ausreißerpunkten ist.

plt.scatter(X[:, 0], X[:, 1], color="k", s=3.0, label="Data points")
## plot circles with radius proportional to the outlier scores
radius = (X_scores.max() - X_scores) / (X_scores.max() - X_scores.min())
scatter = plt.scatter(
    X[:, 0],
    X[:, 1],
    s=1000 * radius,
    edgecolors="r",
    facecolors="none",
    label="Outlier scores",
)
plt.axis("tight")
plt.xlim((-5, 5))
plt.ylim((-5, 5))
plt.xlabel("Outlier Detection")
plt.legend(
    handler_map={scatter: HandlerPathCollection(update_func=update_legend_marker_size)}
)
plt.title("Local Outlier Factor (LOF)")
plt.show()

Zusammenfassung

In diesem Lab haben wir gelernt, wie man Local Outlier Factor (LOF) zur Ausreißerdetektion verwendet. Wir haben einen Datensatz mit Ausreißern generiert, das Modell für die Ausreißerdetektion angepasst und die Ergebnisse geplottet. LOF ist eine leistungsfähige unüberwachte maschinelle Lernmethode, die zur Detektion von Anomalien in einem weiten Bereich von Anwendungen verwendet werden kann.