Gradient Boosting Regression

Machine LearningMachine LearningBeginner
Jetzt üben

This tutorial is from open-source community. Access the source code

💡 Dieser Artikel wurde von AI-Assistenten übersetzt. Um die englische Version anzuzeigen, können Sie hier klicken

Einführung

In diesem Lab verwenden wir Gradient Boosting, um ein prädiktives Modell für die Diabetes-Regressionsaufgabe zu erstellen. Wir trainieren das Modell auf dem Diabetes-Datensatz und erhalten die Ergebnisse von sklearn.ensemble.GradientBoostingRegressor mit quadratischer Verlust und 500 Regressionsbäumen der Tiefe 4.

Tipps für die VM

Nachdem die VM gestartet ist, klicken Sie in der oberen linken Ecke, um zur Registerkarte Notebook zu wechseln und Jupyter Notebook für die Übung zu nutzen.

Manchmal müssen Sie einige Sekunden warten, bis Jupyter Notebook vollständig geladen ist. Die Validierung von Vorgängen kann aufgrund der Einschränkungen in Jupyter Notebook nicht automatisiert werden.

Wenn Sie bei der Lernphase Probleme haben, können Sie Labby gerne fragen. Geben Sie nach der Sitzung Feedback, und wir werden das Problem für Sie prompt beheben.

Daten laden

Zunächst werden wir den Diabetes-Datensatz laden.

diabetes = datasets.load_diabetes()
X, y = diabetes.data, diabetes.target

Datenaufbereitung

Als nächstes teilen wir unseren Datensatz auf, um 90 % für das Training zu verwenden und den Rest für das Testen zu belassen. Wir werden auch die Parameter des Regressionsmodells festlegen.

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=13)

params = {
    "n_estimators": 500,
    "max_depth": 4,
    "min_samples_split": 5,
    "learning_rate": 0.01,
    "loss": "squared_error",
}

Regressionmodell anpassen

Jetzt werden wir die Gradienten-Boosting-Regressoren initialisieren und sie an unseren Trainingsdaten anpassen. Schauen wir uns auch den mittleren quadratischen Fehler auf den Testdaten an.

reg = ensemble.GradientBoostingRegressor(**params)
reg.fit(X_train, y_train)

mse = mean_squared_error(y_test, reg.predict(X_test))
print("The mean squared error (MSE) on test set: {:.4f}".format(mse))

Trainingseabweichung darstellen

Schließlich werden wir die Ergebnisse visualisieren. Dazu berechnen wir zunächst die Testset-Abweichung und plotten sie dann gegen die Boosting-Iterationen.

test_score = np.zeros((params["n_estimators"],), dtype=np.float64)
for i, y_pred in enumerate(reg.staged_predict(X_test)):
    test_score[i] = mean_squared_error(y_test, y_pred)

fig = plt.figure(figsize=(6, 6))
plt.subplot(1, 1, 1)
plt.title("Abweichung")
plt.plot(
    np.arange(params["n_estimators"]) + 1,
    reg.train_score_,
    "b-",
    label="Trainingsset-Abweichung",
)
plt.plot(
    np.arange(params["n_estimators"]) + 1, test_score, "r-", label="Testset-Abweichung"
)
plt.legend(loc="upper right")
plt.xlabel("Boosting-Iterationen")
plt.ylabel("Abweichung")
fig.tight_layout()
plt.show()

Feature-Wichtigkeit darstellen

Für dieses Beispiel werden wir die auf Unreinheit basierenden Feature-Wichtigkeiten verwenden, um die vorherhersagendsten Features zu identifizieren.

feature_importance = reg.feature_importances_
sorted_idx = np.argsort(feature_importance)
pos = np.arange(sorted_idx.shape[0]) + 0.5
fig = plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
plt.barh(pos, feature_importance[sorted_idx], align="center")
plt.yticks(pos, np.array(diabetes.feature_names)[sorted_idx])
plt.title("Feature Importance (MDI)")

Permutations-Wichtigkeit darstellen

Wir werden die Permutationsmethode verwenden, um die vorherhersagendsten Features zu identifizieren.

result = permutation_importance(
    reg, X_test, y_test, n_repeats=10, random_state=42, n_jobs=2
)
sorted_idx = result.importances_mean.argsort()
plt.subplot(1, 2, 2)
plt.boxplot(
    result.importances[sorted_idx].T,
    vert=False,
    labels=np.array(diabetes.feature_names)[sorted_idx],
)
plt.title("Permutations-Wichtigkeit (Testset)")
fig.tight_layout()
plt.show()

Zusammenfassung

In diesem Lab haben wir Gradient Boosting verwendet, um ein prädiktives Modell für die Diabetes-Regressionsaufgabe zu erstellen. Wir haben die Daten geladen, sie präprozessiert, das Regressionsmodell angepasst und die Ergebnisse visualisiert, indem wir die Trainingsabweichung, die Feature-Wichtigkeit und die Permutations-Wichtigkeit geplottet haben.