Apprentissage automatique | Calibration de probabilité | Ensemble de données synthétique

Introduction

Dans les tâches de classification, il est souvent important de prédire non seulement l'étiquette de classe, mais également la probabilité associée. La probabilité indique la confiance de la prédiction. Cependant, pas tous les classifieurs fournissent des probabilités bien calibrées, certains étant trop confiants tandis que d'autres sont sous-confiants. Une calibration séparée des probabilités prédites est souvent souhaitable en tant que post-traitement. Ce laboratoire illustre deux méthodes différentes pour cette calibration et évalue la qualité des probabilités renvoyées en utilisant le score de Brier.

Conseils sur la machine virtuelle

Une fois le démarrage de la machine virtuelle terminé, cliquez dans le coin supérieur gauche pour basculer vers l'onglet Carnet de notes pour accéder au carnet Jupyter pour la pratique.

Parfois, vous devrez peut-être attendre quelques secondes pour que le carnet Jupyter ait fini de charger. La validation des opérations ne peut pas être automatisée en raison des limitations du carnet Jupyter.

Si vous rencontrez des problèmes pendant l'apprentissage, n'hésitez pas à demander à Labby. Donnez votre feedback après la session, et nous résoudrons rapidement le problème pour vous.

Générer un ensemble de données synthétique

Tout d'abord, nous générons un ensemble de données synthétique contenant trois grappes avec deux classes, où la deuxième grappe contient la moitié d'échantillons positifs et la moitié d'échantillons négatifs. La probabilité dans cette grappe est donc de 0,5.

Gaussian Naive-Bayes

Nous utilisons Gaussian Naive-Bayes pour la classification, qui a souvent des probabilités mal calibrées. Nous comparons la probabilité estimée en utilisant un classifieur Gaussian naive Bayes sans calibration, avec une calibration sigmoïde et avec une calibration isotone non paramétrique.

Tracer les données et les probabilités prédites

Nous traçons les données et les probabilités prédites.

Résumé

Dans ce laboratoire, nous avons généré un ensemble de données synthétique, utilisé Gaussian Naive-Bayes pour la classification et comparé la probabilité estimée en utilisant un classifieur Gaussian naive Bayes sans calibration, avec une calibration sigmoïde et avec une calibration isotone non paramétrique. Nous avons ensuite tracé les données et les probabilités prédites. En comparant les pertes du score de Brier, nous avons constaté que seul le modèle non paramétrique est capable de fournir une calibration de probabilité qui renvoie des probabilités proches de la valeur attendue de 0,5 pour la plupart des échantillons appartenant au groupe intermédiaire avec des étiquettes hétérogènes. Cela entraîne une amélioration significative du score de Brier.