掌握非负最小二乘回归

简介

在本实验中，我们将学习非负最小二乘回归，这是一种线性回归，它将回归系数限制为非负。我们将使用 Python 的 scikit-learn 库来实现此算法，并将其与经典线性回归进行比较。

虚拟机使用提示

虚拟机启动完成后，点击左上角切换到笔记本标签页，以访问 Jupyter Notebook 进行练习。

有时，你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制，操作验证无法自动化。

如果你在学习过程中遇到问题，随时向 Labby 提问。课程结束后提供反馈，我们会及时为你解决问题。

Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) sklearn(("Sklearn")) -.-> sklearn/CoreModelsandAlgorithmsGroup(["Core Models and Algorithms"]) sklearn(("Sklearn")) -.-> sklearn/ModelSelectionandEvaluationGroup(["Model Selection and Evaluation"]) sklearn/CoreModelsandAlgorithmsGroup -.-> sklearn/linear_model("Linear Models") sklearn/ModelSelectionandEvaluationGroup -.-> sklearn/model_selection("Model Selection") sklearn/ModelSelectionandEvaluationGroup -.-> sklearn/metrics("Metrics") ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills sklearn/linear_model -.-> lab-49228{{"非负最小二乘回归"}} sklearn/model_selection -.-> lab-49228{{"非负最小二乘回归"}} sklearn/metrics -.-> lab-49228{{"非负最小二乘回归"}} ml/sklearn -.-> lab-49228{{"非负最小二乘回归"}} end

生成随机数据

我们将生成一些随机数据来测试我们的算法。我们将创建 200 个样本，每个样本有 50 个特征，并为每个特征使用 3 的真实系数。然后，我们将对系数进行阈值处理，使其为非负。最后，我们将向样本中添加一些噪声。

import numpy as np

np.random.seed(42)

n_samples, n_features = 200, 50
X = np.random.randn(n_samples, n_features)
true_coef = 3 * np.random.randn(n_features)
true_coef[true_coef < 0] = 0
y = np.dot(X, true_coef)
y += 5 * np.random.normal(size=(n_samples,))

将数据拆分为训练集和测试集

我们会将数据拆分为训练集和测试集，每个集合各占 50%的数据。

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5)

拟合非负最小二乘回归

现在我们将使用非负最小二乘回归来拟合数据。这可以通过在 scikit-learn 的 LinearRegression 类中设置 positive=True 参数来实现。然后，我们将预测测试集的值并计算 R2 分数。

from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

reg_nnls = LinearRegression(positive=True)
y_pred_nnls = reg_nnls.fit(X_train, y_train).predict(X_test)
r2_score_nnls = r2_score(y_test, y_pred_nnls)
print("NNLS R2 score", r2_score_nnls)

拟合经典线性回归

现在我们将使用经典线性回归来拟合数据。这通过使用 scikit-learn 的 LinearRegression 类来完成。然后，我们将预测测试集的值并计算 R2 分数。

reg_ols = LinearRegression()
y_pred_ols = reg_ols.fit(X_train, y_train).predict(X_test)
r2_score_ols = r2_score(y_test, y_pred_ols)
print("OLS R2 score", r2_score_ols)

比较回归系数

现在我们将比较非负最小二乘回归和经典线性回归之间的回归系数。我们将把这些系数相互绘制出来，并观察到它们高度相关。然而，非负约束会将一些系数缩减为 0。这是因为非负最小二乘本质上会产生稀疏结果。

import matplotlib.pyplot as plt

fig, ax = plt.subplots()
ax.plot(reg_ols.coef_, reg_nnls.coef_, linewidth=0, marker=".")

low_x, high_x = ax.get_xlim()
low_y, high_y = ax.get_ylim()
low = max(low_x, low_y)
high = min(high_x, high_y)
ax.plot([low, high], [low, high], ls="--", c=".3", alpha=0.5)
ax.set_xlabel("OLS regression coefficients", fontweight="bold")
ax.set_ylabel("NNLS regression coefficients", fontweight="bold")

总结

在本次实验中，我们了解了非负最小二乘回归以及它与经典线性回归的区别。我们使用 scikit-learn 实现了该算法，并通过生成随机数据并将其拆分为训练集和测试集，将其与经典线性回归进行了比较。然后，我们将两个模型都拟合到数据上，预测了测试集的值，并计算了 R2 分数。最后，我们比较了两个模型之间的回归系数，并观察到非负最小二乘回归产生了稀疏结果。