简介
新颖性检测和异常值检测是用于确定新观测值是否与现有观测值属于同一分布,或者是否应被视为不同的技术。这些技术通常用于通过识别异常或不寻常的观测值来清理真实数据集。
在这种情况下有两个重要区别:
- 异常值检测:训练数据包含异常值,即与其他观测值相差甚远的观测值。异常值检测估计器试图拟合训练数据最集中的区域,而忽略偏差较大的观测值。
- 新颖性检测:训练数据未被异常值污染,目标是检测新观测值是否为异常值。在这种情况下,异常值也称为新颖性。
scikit-learn项目提供了一组机器学习工具,可用于新颖性检测和异常值检测。这些工具使用无监督学习算法实现,这意味着它们从数据中学习模式,而无需标记示例。
虚拟机提示
虚拟机启动完成后,点击左上角切换到“笔记本”标签以访问Jupyter Notebook进行练习。
有时,你可能需要等待几秒钟让Jupyter Notebook完成加载。由于Jupyter Notebook的限制,操作验证无法自动化。
如果你在学习过程中遇到问题,请随时向Labby提问。课程结束后提供反馈,我们将立即为你解决问题。