最近邻回归

Machine LearningMachine LearningBeginner
立即练习

This tutorial is from open-source community. Access the source code

💡 本教程由 AI 辅助翻译自英文原版。如需查看原文,您可以 切换至英文原版

简介

最近邻回归是一种机器学习算法,它通过在训练集中找到 k 个最近的数据点,并使用它们的平均值来预测新数据点的值,从而预测新数据点的值。在本实验中,我们将使用 scikit-learn 来演示如何使用 k 近邻解决回归问题,以及如何使用重心和常量权重对目标进行插值。

虚拟机提示

虚拟机启动完成后,点击左上角切换到“笔记本”标签,以访问 Jupyter Notebook 进行练习。

有时,你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作验证无法自动化。

如果你在学习过程中遇到问题,随时向 Labby 提问。课程结束后提供反馈,我们会及时为你解决问题。


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills ml/sklearn -.-> lab-49260{{"最近邻回归"}} end

生成样本数据

我们首先生成用于回归问题的样本数据。我们创建一个包含 40 个数据点且只有 1 个特征的数组,然后通过对数据应用正弦函数来创建目标数组。我们还会对每第 5 个数据点添加一些噪声。

import numpy as np
import matplotlib.pyplot as plt
from sklearn import neighbors

np.random.seed(0)
X = np.sort(5 * np.random.rand(40, 1), axis=0)
T = np.linspace(0, 5, 500)[:, np.newaxis]
y = np.sin(X).ravel()

## Add noise to targets
y[::5] += 1 * (0.5 - np.random.rand(8))

拟合回归模型

然后,我们使用 5 个近邻以及均匀权重和距离权重,将回归模型拟合到样本数据上。我们使用一个 for 循环来遍历每种权重类型,并使用拟合模型的predict方法创建数据点的散点图和预测值的线图。

n_neighbors = 5

for i, weights in enumerate(["uniform", "distance"]):
    knn = neighbors.KNeighborsRegressor(n_neighbors, weights=weights)
    y_ = knn.fit(X, y).predict(T)

    plt.subplot(2, 1, i + 1)
    plt.scatter(X, y, color="darkorange", label="data")
    plt.plot(T, y_, color="navy", label="prediction")
    plt.axis("tight")
    plt.legend()
    plt.title("KNeighborsRegressor (k = %i, weights = '%s')" % (n_neighbors, weights))

plt.tight_layout()
plt.show()

总结

在本实验中,我们演示了如何使用最近邻回归算法,根据训练集中的 k 个最近邻来预测新数据点的值。我们使用 scikit-learn 生成样本数据,并使用均匀权重和距离权重来拟合我们的回归模型。然后,我们绘制了数据点和预测值,以直观展示我们模型的准确性。