RBF 支持向量机参数调优

Beginner

This tutorial is from open-source community. Access the source code

简介

本实验展示了如何调整径向基函数(RBF)核支持向量机(SVM)的参数。RBF 核的 gammaC 参数对 SVM 模型的性能至关重要。目标是选择这些参数的最优值,以最大化模型的准确率。

虚拟机使用提示

虚拟机启动完成后,点击左上角切换到 笔记本 标签页,以访问 Jupyter Notebook 进行练习。

有时,你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作验证无法自动化。

如果你在学习过程中遇到问题,随时向 Labby 提问。课程结束后提供反馈,我们会立即为你解决问题。

加载并准备数据集

  • 从 scikit-learn 中加载鸢尾花数据集。
  • 将数据分离为特征矩阵 X 和目标向量 y
  • 使用 StandardScaler 对特征矩阵 X 进行标准化。
  • 通过仅保留 X 中的前两个特征并对数据集进行子采样,以仅保留两个类别并将其变为二分类问题,从而创建一个用于决策函数可视化的简化版数据集。

训练分类器

  • 使用 np.logspace 创建 gammaC 参数的对数网格。
  • 使用 StratifiedShuffleSplit 将数据拆分为训练集和测试集。
  • 使用 GridSearchCV 进行网格搜索,以找到支持向量机(SVM)模型的最佳参数。
  • 为二维版本中的所有参数拟合一个分类器。

可视化

  • 在一个仅涉及 2 个输入特征和 2 个可能目标类别(二分类)的简化分类问题上,可视化各种参数值下的决策函数。
  • 将分类器的交叉验证准确率作为 Cgamma 的函数,可视化其热图。

结果解读

  • 解读可视化结果并选择 Cgamma 的最优值。

总结

本实验展示了如何调整径向基函数(RBF)核支持向量机(SVM)的参数。RBF 核的 gammaC 参数对 SVM 模型的性能至关重要,并且可以通过结合网格搜索和可视化技术来找到这些参数的最优值。