Univariate Feature Selection

Machine LearningMachine LearningBeginner
Jetzt üben

This tutorial is from open-source community. Access the source code

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

In diesem Lab wird gezeigt, wie die univariate Feature Selection verwendet werden kann, um die Klassifikationsgenauigkeit auf einem rauschenden Datensatz zu verbessern. Ein Support Vector Machine (SVM) wird verwendet, um den Datensatz sowohl vor als auch nach der Anwendung der univariaten Feature Selection zu klassifizieren. Für jede Eigenschaft werden die p-Werte für die univariate Feature Selection und die entsprechenden Gewichte der SVMs geplottet. Dadurch werden wir die Modellgenauigkeit vergleichen und den Einfluss der univariaten Feature Selection auf die Modellgewichte untersuchen.

VM-Tipps

Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu öffnen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund der Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL sklearn(("Sklearn")) -.-> sklearn/CoreModelsandAlgorithmsGroup(["Core Models and Algorithms"]) sklearn(("Sklearn")) -.-> sklearn/DataPreprocessingandFeatureEngineeringGroup(["Data Preprocessing and Feature Engineering"]) sklearn(("Sklearn")) -.-> sklearn/ModelSelectionandEvaluationGroup(["Model Selection and Evaluation"]) sklearn(("Sklearn")) -.-> sklearn/UtilitiesandDatasetsGroup(["Utilities and Datasets"]) ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) sklearn/CoreModelsandAlgorithmsGroup -.-> sklearn/svm("Support Vector Machines") sklearn/DataPreprocessingandFeatureEngineeringGroup -.-> sklearn/preprocessing("Preprocessing and Normalization") sklearn/DataPreprocessingandFeatureEngineeringGroup -.-> sklearn/feature_selection("Feature Selection") sklearn/DataPreprocessingandFeatureEngineeringGroup -.-> sklearn/pipeline("Pipeline") sklearn/ModelSelectionandEvaluationGroup -.-> sklearn/model_selection("Model Selection") sklearn/UtilitiesandDatasetsGroup -.-> sklearn/datasets("Datasets") ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills sklearn/svm -.-> lab-49127{{"Univariate Feature Selection"}} sklearn/preprocessing -.-> lab-49127{{"Univariate Feature Selection"}} sklearn/feature_selection -.-> lab-49127{{"Univariate Feature Selection"}} sklearn/pipeline -.-> lab-49127{{"Univariate Feature Selection"}} sklearn/model_selection -.-> lab-49127{{"Univariate Feature Selection"}} sklearn/datasets -.-> lab-49127{{"Univariate Feature Selection"}} ml/sklearn -.-> lab-49127{{"Univariate Feature Selection"}} end

Beispiel-Daten generieren

Zunächst werden wir einige Beispiel-Daten für die Demonstration generieren. Wir werden den Iris-Datensatz verwenden und diesem einige nicht korrelierende rauschende Daten hinzufügen.

import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

## Der Iris-Datensatz
X, y = load_iris(return_X_y=True)

## Einige rauschende Daten, die nicht korreliert sind
E = np.random.RandomState(42).uniform(0, 0.1, size=(X.shape[0], 20))

## Fügen Sie die rauschenden Daten zu den informativen Merkmalen hinzu
X = np.hstack((X, E))

## Teilen Sie den Datensatz in Trainings- und Testdaten auf, um die Feature-Selektion durchzuführen und den Klassifikator zu evaluieren
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)

Univariate Feature Selection

Als nächstes werden wir die univariate Feature Selection mit F-Test zur Feature Bewertung durchführen. Wir werden die Standardauswahlfunktion verwenden, um die vier wichtigsten Features auszuwählen.

from sklearn.feature_selection import SelectKBest, f_classif

selector = SelectKBest(f_classif, k=4)
selector.fit(X_train, y_train)
scores = -np.log10(selector.pvalues_)
scores /= scores.max()

Plotten der univariaten Feature-Scores

Wir können die univariaten Scores für jedes Feature plotten, um zu sehen, welche Features signifikant sind.

import matplotlib.pyplot as plt

X_indices = np.arange(X.shape[-1])
plt.figure(1)
plt.clf()
plt.bar(X_indices - 0.05, scores, width=0.2)
plt.title("Feature univariate score")
plt.xlabel("Feature number")
plt.ylabel(r"Univariate score ($-Log(p_{value})$)")
plt.show()

Vergleichen mit SVMs

Wir werden nun die Klassifikationsgenauigkeit von SVMs mit und ohne univariate Feature Selection vergleichen.

Ohne univariate Feature Selection
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import MinMaxScaler
from sklearn.svm import LinearSVC

clf = make_pipeline(MinMaxScaler(), LinearSVC(dual="auto"))
clf.fit(X_train, y_train)
print(
    "Classification accuracy without selecting features: {:.3f}".format(
        clf.score(X_test, y_test)
    )
)

svm_weights = np.abs(clf[-1].coef_).sum(axis=0)
svm_weights /= svm_weights.sum()
Nach univariater Feature Selection
clf_selected = make_pipeline(
    SelectKBest(f_classif, k=4), MinMaxScaler(), LinearSVC(dual="auto")
)
clf_selected.fit(X_train, y_train)
print(
    "Classification accuracy after univariate feature selection: {:.3f}".format(
        clf_selected.score(X_test, y_test)
    )
)

svm_weights_selected = np.abs(clf_selected[-1].coef_).sum(axis=0)
svm_weights_selected /= svm_weights_selected.sum()

Plot zum Vergleich der Feature Selection

Wir können die Feature-Scores und -Gewichte für jedes Feature plotten, um den Einfluss der univariaten Feature Selection zu sehen.

plt.bar(
    X_indices - 0.45, scores, width=0.2, label=r"Univariate score ($-Log(p_{value})$)"
)

plt.bar(X_indices - 0.25, svm_weights, width=0.2, label="SVM weight")

plt.bar(
    X_indices[selector.get_support()] - 0.05,
    svm_weights_selected,
    width=0.2,
    label="SVM weights after selection",
)

plt.title("Comparing feature selection")
plt.xlabel("Feature number")
plt.yticks(())
plt.axis("tight")
plt.legend(loc="upper right")
plt.show()

Zusammenfassung

In diesem Lab wurde gezeigt, wie die univariate Feature Selection verwendet werden kann, um die Klassifikationsgenauigkeit auf einem rauschenden Datensatz zu verbessern. Wir haben Beispiel-Daten generiert, die univariate Feature Selection durchgeführt und die SVM-Klassifikationsgenauigkeit mit und ohne univariate Feature Selection verglichen. Wir haben auch die Feature-Scores und -Gewichte für jedes Feature geplottet, um den Einfluss der univariaten Feature Selection zu sehen.