分类器的概率校准

Beginner

This tutorial is from open-source community. Access the source code

简介

在分类任务中,通常不仅要预测类别标签,还要预测相关的概率。概率表示预测的置信度。然而,并非所有分类器都能提供校准良好的概率,有些过于自信,而有些则信心不足。作为后处理步骤,通常需要对预测概率进行单独校准。本实验说明了两种不同的校准方法,并使用布里尔分数(Brier's score)评估返回概率的质量。

虚拟机使用提示

虚拟机启动完成后,点击左上角切换到“笔记本”标签,以访问 Jupyter Notebook 进行练习。

有时,你可能需要等待几秒钟让 Jupyter Notebook 完成加载。由于 Jupyter Notebook 的限制,操作验证无法自动化。

如果你在学习过程中遇到问题,随时向 Labby 提问。课程结束后提供反馈,我们会及时为你解决问题。

生成合成数据集

首先,我们生成一个包含三个具有两个类别的斑点的合成数据集,其中第二个斑点包含一半的正样本和一半的负样本。因此,这个斑点中的概率为 0.5。

高斯朴素贝叶斯

我们使用高斯朴素贝叶斯进行分类,其概率校准通常较差。我们比较了使用未经校准的高斯朴素贝叶斯分类器、使用 sigmoid 校准以及使用非参数等渗校准所估计的概率。

绘制数据和预测概率

我们绘制数据和预测概率。

总结

在本实验中,我们生成了一个合成数据集,使用高斯朴素贝叶斯进行分类,并比较了使用未经校准的高斯朴素贝叶斯分类器、使用 sigmoid 校准以及使用非参数等渗校准所估计的概率。然后,我们绘制了数据和预测概率。通过比较布里尔分数损失,我们发现只有非参数模型能够提供概率校准,对于属于具有异质标签的中间聚类的大多数样本,其返回的概率接近预期的 0.5。这使得布里尔分数得到了显著改善。