Erkunde die Permutationsmerkmalwichtigkeit für die prädiktive Modellierung

Einführung

In diesem Lab werden wir die Permutation Feature Importance-Methode kennenlernen, die eine Modellüberprüfungstechnik ist, die verwendet wird, um die Wichtigkeit von Merkmalen in einem prädiktiven Modell zu bestimmen. Diese Technik kann besonders nützlich für nichtlineare oder undurchsichtige Modelle sein, die schwer zu interpretieren sind.

Tipps für die VM

Nachdem der VM-Start abgeschlossen ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu öffnen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund von Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL sklearn(("Sklearn")) -.-> sklearn/CoreModelsandAlgorithmsGroup(["Core Models and Algorithms"]) sklearn(("Sklearn")) -.-> sklearn/ModelSelectionandEvaluationGroup(["Model Selection and Evaluation"]) sklearn(("Sklearn")) -.-> sklearn/UtilitiesandDatasetsGroup(["Utilities and Datasets"]) ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) sklearn/CoreModelsandAlgorithmsGroup -.-> sklearn/linear_model("Linear Models") sklearn/ModelSelectionandEvaluationGroup -.-> sklearn/inspection("Inspection") sklearn/UtilitiesandDatasetsGroup -.-> sklearn/datasets("Datasets") ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills sklearn/linear_model -.-> lab-71127{{"Permutationsmerkmalwichtigkeit"}} sklearn/inspection -.-> lab-71127{{"Permutationsmerkmalwichtigkeit"}} sklearn/datasets -.-> lab-71127{{"Permutationsmerkmalwichtigkeit"}} ml/sklearn -.-> lab-71127{{"Permutationsmerkmalwichtigkeit"}} end

Lade den Datensatz

Zunächst müssen wir einen Datensatz laden, den wir verwenden können, um unser prädiktives Modell zu trainieren. Wir werden den Diabetes-Datensatz aus scikit-learn verwenden, der Informationen über Diabetes-Patienten enthält.

from sklearn.datasets import load_diabetes

## Lade den Diabetes-Datensatz
diabetes = load_diabetes()

## Teile die Daten in Trainings- und Validierungssätze auf
X_train, X_val, y_train, y_val = train_test_split(diabetes.data, diabetes.target, random_state=0)

Trainiere das Modell

Als nächstes werden wir ein Regressionsmodell auf den Trainingsdaten trainieren. In diesem Beispiel werden wir ein Ridge-Regressionsmodell verwenden.

from sklearn.linear_model import Ridge

## Trainiere das Ridge-Regressionsmodell
model = Ridge(alpha=1e-2).fit(X_train, y_train)

Bewerte das Modell

Wir werden nun das trainierte Modell mit der Validierungsset bewerten. Die Bewertungsmetrik, die hier verwendet wird, ist der R-Quadrat-Wert.

## Bewerte das Modell auf der Validierungsset
score = model.score(X_val, y_val)
print("Validierungsscore:", score)

Berechne die Permutationsmerkmalwichtigkeit

Jetzt werden wir die Permutationsmerkmalwichtigkeit mit der Funktion permutation_importance aus scikit-learn berechnen. Diese Funktion nimmt als Eingabe das trainierte Modell, das Validierungsset und die Anzahl der Wiederholungen, bei denen die Merkmale permutiert werden sollen.

from sklearn.inspection import permutation_importance

## Berechne die Permutationsmerkmalwichtigkeit
result = permutation_importance(model, X_val, y_val, n_repeats=30, random_state=0)

## Drucke die Merkmalswichtigkeiten
for i in result.importances_mean.argsort()[::-1]:
    if result.importances_mean[i] - 2 * result.importances_std[i] > 0:
        print(f"{diabetes.feature_names[i]}: {result.importances_mean[i]:.3f} +/- {result.importances_std[i]:.3f}")

Deute die Ergebnisse

Die berechneten Merkmalswichtigkeiten repräsentieren die Abnahme des Modellsitzes, wenn ein einzelnes Merkmalswert zufällig gemischt wird. Merkmale mit einem höheren Wichtigkeitswert weisen darauf hin, dass das Modell stärker auf diese Merkmale für seine Vorhersagen zurückgreift.

In diesem Beispiel sind die wichtigsten Merkmale, die zum besten Leistungsvermögen des Modells beitragen, "s5", "bmi", "bp" und "sex".

Zusammenfassung

In diesem Lab haben wir die Methode der Permutationsmerkmalwichtigkeit gelernt, um die Wichtigkeit von Merkmalen in einem prädiktiven Modell zu bewerten. Wir haben die Schritte durchlaufen, einen Datensatz zu laden, ein Modell zu trainieren, das Modell zu bewerten, die Merkmalswichtigkeiten zu berechnen und die Ergebnisse zu interpretieren. Diese Methode kann wertvoll sein, um zu verstehen, welche Merkmale am prädiktivsten sind und inwieweit das Modell von jedem Merkmal abhängt.