Calibración de probabilidades de los clasificadores

Machine LearningMachine LearningBeginner
Practicar Ahora

This tutorial is from open-source community. Access the source code

💡 Este tutorial está traducido por IA desde la versión en inglés. Para ver la versión original, puedes hacer clic aquí

Introducción

En las tareas de clasificación, a menudo es importante predecir no solo la etiqueta de clase sino también la probabilidad asociada. La probabilidad indica la confianza de la predicción. Sin embargo, no todos los clasificadores proporcionan probabilidades bien calibradas, algunos siendo demasiado confiados mientras que otros son poco confiados. A menudo es deseable una calibración separada de las probabilidades predichas como un postprocesamiento. Esta práctica ilustra dos métodos diferentes para esta calibración y evalúa la calidad de las probabilidades devueltas utilizando la puntuación de Brier.

Consejos sobre la VM

Una vez que se haya iniciado la VM, haga clic en la esquina superior izquierda para cambiar a la pestaña Cuaderno y acceder a Jupyter Notebook para practicar.

A veces, es posible que tenga que esperar unos segundos a que Jupyter Notebook termine de cargarse. La validación de las operaciones no se puede automatizar debido a las limitaciones de Jupyter Notebook.

Si tiene problemas durante el aprendizaje, no dude en preguntar a Labby. Deje comentarios después de la sesión y lo resolveremos rápidamente para usted.


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills ml/sklearn -.-> lab-49075{{"Calibración de probabilidades de los clasificadores"}} end

Generar un conjunto de datos sintético

En primer lugar, generamos un conjunto de datos sintético que contiene tres grupos con dos clases, donde el segundo grupo contiene la mitad de muestras positivas y la mitad de muestras negativas. La probabilidad en este grupo es, por lo tanto, 0,5.

Gaussian Naive-Bayes

Utilizamos Gaussian Naive-Bayes para la clasificación, que a menudo tiene probabilidades mal calibradas. Comparamos la probabilidad estimada utilizando un clasificador Gaussian naive Bayes sin calibración, con una calibración sigmoide y con una calibración isotónica no paramétrica.

Representar los datos y las probabilidades predichas

Representamos los datos y las probabilidades predichas.

Resumen

En esta práctica, generamos un conjunto de datos sintético, utilizamos Gaussian Naive-Bayes para la clasificación y comparamos la probabilidad estimada utilizando un clasificador Gaussian naive Bayes sin calibración, con una calibración sigmoide y con una calibración isotónica no paramétrica. Luego representamos los datos y las probabilidades predichas. Al comparar las pérdidas de la puntuación de Brier, descubrimos que solo el modelo no paramétrico es capaz de proporcionar una calibración de probabilidades que devuelve probabilidades cercanas a la esperada 0,5 para la mayoría de las muestras pertenecientes al clúster intermedio con etiquetas heterogéneas. Esto da como resultado una mejora significativa de la puntuación de Brier.