Ausreißer in Weindaten erkennen

Machine LearningMachine LearningBeginner
Jetzt üben

This tutorial is from open-source community. Access the source code

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

In diesem Lab werden wir mit scikit-learn Ausreißerdetektion auf einem echten Datensatz durchführen. Ausreißerdetektion ist der Prozess, um Datenpunkte zu identifizieren, die sich erheblich von der Mehrheit der Daten unterscheiden. Ausreißer können durch Messfehler, Datenkorruption oder einfach nur ein seltener Fall verursacht werden. Die Ausreißerdetektion ist in vielen Anwendungen wichtig, wie z. B. Betrugserkennung, Netzwerk-Einbruchsdetektion und medizinische Diagnose.

Tipps für die VM

Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie während des Lernens Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL sklearn(("Sklearn")) -.-> sklearn/AdvancedDataAnalysisandDimensionalityReductionGroup(["Advanced Data Analysis and Dimensionality Reduction"]) sklearn(("Sklearn")) -.-> sklearn/UtilitiesandDatasetsGroup(["Utilities and Datasets"]) ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) sklearn(("Sklearn")) -.-> sklearn/CoreModelsandAlgorithmsGroup(["Core Models and Algorithms"]) sklearn/CoreModelsandAlgorithmsGroup -.-> sklearn/svm("Support Vector Machines") sklearn/AdvancedDataAnalysisandDimensionalityReductionGroup -.-> sklearn/covariance("Covariance Estimators") sklearn/UtilitiesandDatasetsGroup -.-> sklearn/datasets("Datasets") ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills sklearn/svm -.-> lab-49237{{"Ausreißer in Weindaten erkennen"}} sklearn/covariance -.-> lab-49237{{"Ausreißer in Weindaten erkennen"}} sklearn/datasets -.-> lab-49237{{"Ausreißer in Weindaten erkennen"}} ml/sklearn -.-> lab-49237{{"Ausreißer in Weindaten erkennen"}} end

Bibliotheken importieren und Datensatz laden

Wir beginnen mit dem Import der erforderlichen Bibliotheken und dem Laden des Wine-Datensatzes aus scikit-learn. Der Wine-Datensatz enthält Informationen über verschiedene Weintypen, einschließlich ihrer chemischen Eigenschaften.

import numpy as np
from sklearn.covariance import EllipticEnvelope
from sklearn.svm import OneClassSVM
import matplotlib.pyplot as plt
from sklearn.datasets import load_wine

## Load dataset
X1 = load_wine()["data"][:, [1, 2]]  ## two clusters
X2 = load_wine()["data"][:, [6, 9]]  ## "banana"-shaped

Klassifizierer und Farben definieren

Wir werden die Ausreißerdetektions-Klassifizierer definieren, die wir in diesem Lab verwenden werden. Wir werden auch die Farben definieren, die zur Darstellung der Ergebnisse verwendet werden.

## Define "classifiers" to be used
classifiers = {
    "Empirical Covariance": EllipticEnvelope(support_fraction=1.0, contamination=0.25),
    "Robust Covariance (Minimum Covariance Determinant)": EllipticEnvelope(
        contamination=0.25
    ),
    "OCSVM": OneClassSVM(nu=0.25, gamma=0.35),
}
colors = ["m", "g", "b"]

Ausreißerdetektion auf zweidimensionalen Daten

Wir werden Ausreißerdetektion auf dem zweidimensionalen Wine-Datensatz durchführen. Wir werden drei verschiedene Klassifizierer verwenden, um Ausreißer zu erkennen: Empirische Kovarianz, Robuste Kovarianz und One-Class SVM. Anschließend werden wir die Ergebnisse darstellen.

## Learn a frontier for outlier detection with several classifiers
xx1, yy1 = np.meshgrid(np.linspace(0, 6, 500), np.linspace(1, 4.5, 500))
for i, (clf_name, clf) in enumerate(classifiers.items()):
    plt.figure(1)
    clf.fit(X1)
    Z1 = clf.decision_function(np.c_[xx1.ravel(), yy1.ravel()])
    Z1 = Z1.reshape(xx1.shape)
    plt.contour(
        xx1, yy1, Z1, levels=[0], linewidths=2, colors=colors[i]
    )

## Plot the results (= shape of the data points cloud)
plt.figure(1)  ## two clusters
plt.title("Outlier detection on a real data set (wine recognition)")
plt.scatter(X1[:, 0], X1[:, 1], color="black")
plt.xlim((xx1.min(), xx1.max()))
plt.ylim((yy1.min(), yy1.max()))
plt.ylabel("ash")
plt.xlabel("malic_acid")
plt.show()

Ausreißerdetektion auf komplexen Daten

Wir werden Ausreißerdetektion auf dem "banana"-förmigen Wine-Datensatz durchführen. Wir werden die gleichen drei Klassifizierer wie zuvor verwenden und die Ergebnisse darstellen.

## Learn a frontier for outlier detection with several classifiers
xx2, yy2 = np.meshgrid(np.linspace(-1, 5.5, 500), np.linspace(-2.5, 19, 500))
for i, (clf_name, clf) in enumerate(classifiers.items()):
    plt.figure(2)
    clf.fit(X2)
    Z2 = clf.decision_function(np.c_[xx2.ravel(), yy2.ravel()])
    Z2 = Z2.reshape(xx2.shape)
    plt.contour(
        xx2, yy2, Z2, levels=[0], linewidths=2, colors=colors[i]
    )

## Plot the results (= shape of the data points cloud)
plt.figure(2)  ## "banana" shape
plt.title("Outlier detection on a real data set (wine recognition)")
plt.scatter(X2[:, 0], X2[:, 1], color="black")
plt.xlim((xx2.min(), xx2.max()))
plt.ylim((yy2.min(), yy2.max()))
plt.ylabel("color_intensity")
plt.xlabel("flavanoids")
plt.show()

Zusammenfassung

In diesem Lab haben wir Ausreißerdetektion auf zweidimensionalen Wine-Datenätzen mit scikit-learn durchgeführt. Wir haben drei verschiedene Klassifizierer verwendet, um Ausreißer zu erkennen: Empirische Kovarianz, Robuste Kovarianz und One-Class SVM. Anschließend haben wir die Ergebnisse dargestellt, um die Daten und die entdeckten Ausreißer zu visualisieren. Die Ausreißerdetektion ist eine wichtige Aufgabe in der Datenanalyse, und scikit-learn bietet mehrere Werkzeuge, um diese Aufgabe effizient durchzuführen.