Introdução
Em tarefas de classificação, é frequentemente importante prever não só a etiqueta da classe, mas também a probabilidade associada. A probabilidade indica a confiança da previsão. No entanto, nem todos os classificadores fornecem probabilidades bem calibradas, alguns sendo excessivamente confiantes enquanto outros são pouco confiantes. Uma calibração separada das probabilidades previstas é frequentemente desejável como um pós-processamento. Este laboratório ilustra dois métodos diferentes para esta calibração e avalia a qualidade das probabilidades retornadas utilizando a pontuação de Brier.
Dicas da Máquina Virtual
Após o arranque da máquina virtual, clique no canto superior esquerdo para mudar para a aba Notebook para aceder ao Jupyter Notebook para a prática.
Por vezes, pode ser necessário esperar alguns segundos para o Jupyter Notebook terminar de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.
Se tiver problemas durante a aprendizagem, não hesite em contactar o Labby. Forneça feedback após a sessão e resolveremos prontamente o problema para si.
Gerar Conjunto de Dados Sintético
Primeiro, geramos um conjunto de dados sintético contendo três blobs com duas classes, onde o segundo blob contém metade de amostras positivas e metade de amostras negativas. A probabilidade neste blob é, portanto, 0,5.
Naive Bayes Gaussiano
Utilizamos Naive Bayes Gaussiano para classificação, que frequentemente apresenta probabilidades mal calibradas. Comparamos a probabilidade estimada usando um classificador Naive Bayes Gaussiano sem calibração, com calibração sigmóide e com calibração isotônica não paramétrica.
Plotar Dados e Probabilidades Previstas
Plotamos os dados e as probabilidades previstas.
Sumário
Neste laboratório, geramos um conjunto de dados sintético, utilizamos Naive Bayes Gaussiano para classificação e comparamos a probabilidade estimada usando um classificador Naive Bayes Gaussiano sem calibração, com calibração sigmóide e com calibração isotônica não paramétrica. Em seguida, plotamos os dados e as probabilidades previstas. Ao comparar as perdas do score de Brier, descobrimos que apenas o modelo não paramétrico é capaz de fornecer uma calibração de probabilidade que retorna probabilidades próximas a 0,5 para a maioria das amostras pertencentes ao cluster central com rótulos heterogêneos. Isso resulta em uma melhoria significativa do score de Brier.