提升决策树回归 | Python Scikit-Learn | 正弦数据

简介

在本实验中，我们将使用 Python 的 Scikit-Learn 库对一维正弦数据集执行提升决策树回归。我们将比较单个决策树回归器与以 300 个决策树回归器作为基学习器的 AdaBoost 回归器的性能。

虚拟机使用提示

虚拟机启动完成后，点击左上角切换到“笔记本”标签页，以访问 Jupyter Notebook 进行练习。

有时，你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制，操作验证无法自动化。

如果你在学习过程中遇到问题，随时向 Labby 提问。课程结束后提供反馈，我们将立即为你解决问题。

准备数据

我们首先准备具有正弦关系和一些高斯噪声的虚拟数据。我们使用 NumPy 的 linspace() 函数创建一个在 0 到 6 之间均匀分布的 100 个值的一维数组。然后，我们使用 np.newaxis 属性将一维数组转换为形状为 (100,1) 的二维数组。我们对这个数组应用 sin() 函数，并添加通过将数组乘以 6 得到的第二个正弦波。然后，我们使用 NumPy 的 normal() 函数添加一些均值为 0、标准差为 0.1 的高斯噪声。

import numpy as np

rng = np.random.RandomState(1)
X = np.linspace(0, 6, 100)[:, np.newaxis]
y = np.sin(X).ravel() + np.sin(6 * X).ravel() + rng.normal(0, 0.1, X.shape[0])

使用决策树和 AdaBoost 回归器进行训练和预测

我们现在定义分类器并将它们拟合到数据上。我们将第一个回归器定义为一个 max_depth=4 的 DecisionTreeRegressor。我们将第二个回归器定义为一个以 max_depth=4 的 DecisionTreeRegressor 作为基学习器的 AdaBoostRegressor。我们使用 300 个这样的基学习器构建 AdaBoost 回归器。然后，我们将这两个回归器都拟合到数据上，并在相同的数据上进行预测，以查看它们的拟合效果如何。

from sklearn.ensemble import AdaBoostRegressor
from sklearn.tree import DecisionTreeRegressor

regr_1 = DecisionTreeRegressor(max_depth=4)

regr_2 = AdaBoostRegressor(
    DecisionTreeRegressor(max_depth=4), n_estimators=300, random_state=rng
)

regr_1.fit(X, y)
regr_2.fit(X, y)

y_1 = regr_1.predict(X)
y_2 = regr_2.predict(X)

绘制结果

最后，我们绘制我们的两个回归器，即单个决策树回归器和 AdaBoost 回归器，对数据的拟合程度。我们使用 Matplotlib 的 scatter() 函数来绘制训练样本以及两个回归器的预测值。我们使用 Matplotlib 的 plot() 函数来绘制两个回归器的预测值与数据的对比图。我们在图中添加一个图例以区分这两个回归器。

import matplotlib.pyplot as plt
import seaborn as sns

colors = sns.color_palette("colorblind")

plt.figure()
plt.scatter(X, y, color=colors[0], label="training samples")
plt.plot(X, y_1, color=colors[1], label="n_estimators=1", linewidth=2)
plt.plot(X, y_2, color=colors[2], label="n_estimators=300", linewidth=2)
plt.xlabel("data")
plt.ylabel("target")
plt.title("Boosted Decision Tree Regression")
plt.legend()
plt.show()

总结

在本实验中，我们学习了如何使用 Python 的 Scikit-Learn 库对一维正弦数据集执行提升决策树回归。我们比较了单个决策树回归器与以 300 个决策树回归器作为基学习器的 AdaBoost 回归器的性能。我们使用 Matplotlib 可视化了这两个回归器的性能。