Univariate Feature Selection | Support Vector Classifier | Iris-Datensatz

Einführung

In diesem Lab wird gezeigt, wie die univariate Feature-Selektion durchgeführt werden kann, bevor ein Support Vector Classifier (SVC) ausgeführt wird, um die Klassifizierungsergebnisse zu verbessern. Wir werden den Iris-Datensatz (4 Features) verwenden und 36 nicht-informative Features hinzufügen. Wir werden feststellen, dass unser Modell die beste Leistung erzielt, wenn wir etwa 10% der Features auswählen.

Tipps für die VM

Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu öffnen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback ab, und wir werden das Problem für Sie prompt beheben.

Daten laden

Wir beginnen, indem wir den Iris-Datensatz laden und 36 nicht-informative Features hinzufügen.

import numpy as np
from sklearn.datasets import load_iris

X, y = load_iris(return_X_y=True)

## Add non-informative features
rng = np.random.RandomState(0)
X = np.hstack((X, 2 * rng.random((X.shape[0], 36))))

Pipeline erstellen

Als nächstes erstellen wir eine Pipeline, die aus einem Feature-Selektions-Transformator, einem Skalierer und einer Instanz von SVM besteht, die wir zusammen kombinieren, um einen vollwertigen Schätzer zu erhalten.

from sklearn.pipeline import Pipeline
from sklearn.feature_selection import SelectPercentile, f_classif
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC

clf = Pipeline(
    [
        ("anova", SelectPercentile(f_classif)),
        ("scaler", StandardScaler()),
        ("svc", SVC(gamma="auto")),
    ]
)

Plotten der Kreuzvalidierungsscore

Wir plotten den Kreuzvalidierungsscore als Funktion des Prozentils der Features.

import matplotlib.pyplot as plt
from sklearn.model_selection import cross_val_score

score_means = list()
score_stds = list()
percentiles = (1, 3, 6, 10, 15, 20, 30, 40, 60, 80, 100)

for percentile in percentiles:
    clf.set_params(anova__percentile=percentile)
    this_scores = cross_val_score(clf, X, y)
    score_means.append(this_scores.mean())
    score_stds.append(this_scores.std())

plt.errorbar(percentiles, score_means, np.array(score_stds))
plt.title("Performance of the SVM-Anova varying the percentile of features selected")
plt.xticks(np.linspace(0, 100, 11, endpoint=True))
plt.xlabel("Percentile")
plt.ylabel("Accuracy Score")
plt.axis("tight")
plt.show()

Zusammenfassung

In diesem Lab haben wir gelernt, wie die univariate Feature-Selektion durchgeführt werden kann, bevor ein Support Vector Classifier (SVC) ausgeführt wird, um die Klassifizierungsergebnisse zu verbessern. Wir haben den Iris-Datensatz (4 Features) verwendet und 36 nicht-informative Features hinzugefügt. Wir haben festgestellt, dass unser Modell die beste Leistung erzielt, wenn wir etwa 10% der Features ausgewählt haben.