梯度提升回归：掌握预测建模

简介

在本实验中，我们将使用梯度提升（Gradient Boosting）为糖尿病回归任务构建一个预测模型。我们将在糖尿病数据集上训练该模型，并使用最小二乘损失和 500 棵深度为 4 的回归树，从sklearn.ensemble.GradientBoostingRegressor中获得结果。

虚拟机使用提示

虚拟机启动完成后，点击左上角切换到笔记本标签页，以访问 Jupyter Notebook 进行练习。

有时，你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制，操作的验证无法自动化。

如果你在学习过程中遇到问题，随时向 Labby 提问。课程结束后提供反馈，我们将立即为你解决问题。

加载数据

首先，我们将加载糖尿病数据集。

diabetes = datasets.load_diabetes()
X, y = diabetes.data, diabetes.target

数据预处理

接下来，我们将分割数据集，使用 90% 的数据进行训练，其余数据用于测试。我们还将设置回归模型的参数。

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1, random_state=13)

params = {
    "n_estimators": 500,
    "max_depth": 4,
    "min_samples_split": 5,
    "learning_rate": 0.01,
    "loss": "squared_error",
}

拟合回归模型

现在我们将初始化梯度提升回归器，并使用训练数据对其进行拟合。我们还来看一下测试数据上的均方误差。

reg = ensemble.GradientBoostingRegressor(**params)
reg.fit(X_train, y_train)

mse = mean_squared_error(y_test, reg.predict(X_test))
print("The mean squared error (MSE) on test set: {:.4f}".format(mse))

绘制训练偏差

最后，我们将可视化结果。为此，我们将首先计算测试集偏差，然后将其与提升迭代次数进行绘制。

test_score = np.zeros((params["n_estimators"],), dtype=np.float64)
for i, y_pred in enumerate(reg.staged_predict(X_test)):
    test_score[i] = mean_squared_error(y_test, y_pred)

fig = plt.figure(figsize=(6, 6))
plt.subplot(1, 1, 1)
plt.title("Deviance")
plt.plot(
    np.arange(params["n_estimators"]) + 1,
    reg.train_score_,
    "b-",
    label="Training Set Deviance",
)
plt.plot(
    np.arange(params["n_estimators"]) + 1, test_score, "r-", label="Test Set Deviance"
)
plt.legend(loc="upper right")
plt.xlabel("Boosting Iterations")
plt.ylabel("Deviance")
fig.tight_layout()
plt.show()

绘制特征重要性

对于这个示例，我们将使用基于杂质的特征重要性来识别最具预测性的特征。

feature_importance = reg.feature_importances_
sorted_idx = np.argsort(feature_importance)
pos = np.arange(sorted_idx.shape[0]) + 0.5
fig = plt.figure(figsize=(12, 6))
plt.subplot(1, 2, 1)
plt.barh(pos, feature_importance[sorted_idx], align="center")
plt.yticks(pos, np.array(diabetes.feature_names)[sorted_idx])
plt.title("Feature Importance (MDI)")

绘制排列重要性

我们将使用排列方法来识别最具预测性的特征。

result = permutation_importance(
    reg, X_test, y_test, n_repeats=10, random_state=42, n_jobs=2
)
sorted_idx = result.importances_mean.argsort()
plt.subplot(1, 2, 2)
plt.boxplot(
    result.importances[sorted_idx].T,
    vert=False,
    labels=np.array(diabetes.feature_names)[sorted_idx],
)
plt.title("Permutation Importance (test set)")
fig.tight_layout()
plt.show()

总结

在这个实验中，我们使用梯度提升为糖尿病回归任务构建了一个预测模型。我们加载了数据，对其进行了预处理，拟合了回归模型，并通过绘制训练偏差、特征重要性和排列重要性来可视化结果。