Aprendizado de Máquina | Calibração de Probabilidades | Conjunto de Dados Sintético

Introdução

Em tarefas de classificação, é frequentemente importante prever não só a etiqueta da classe, mas também a probabilidade associada. A probabilidade indica a confiança da previsão. No entanto, nem todos os classificadores fornecem probabilidades bem calibradas, alguns sendo excessivamente confiantes enquanto outros são pouco confiantes. Uma calibração separada das probabilidades previstas é frequentemente desejável como um pós-processamento. Este laboratório ilustra dois métodos diferentes para esta calibração e avalia a qualidade das probabilidades retornadas utilizando a pontuação de Brier.

Dicas da Máquina Virtual

Após o arranque da máquina virtual, clique no canto superior esquerdo para mudar para a aba Notebook para aceder ao Jupyter Notebook para a prática.

Por vezes, pode ser necessário esperar alguns segundos para o Jupyter Notebook terminar de carregar. A validação das operações não pode ser automatizada devido a limitações no Jupyter Notebook.

Se tiver problemas durante a aprendizagem, não hesite em contactar o Labby. Forneça feedback após a sessão e resolveremos prontamente o problema para si.

Gerar Conjunto de Dados Sintético

Primeiro, geramos um conjunto de dados sintético contendo três blobs com duas classes, onde o segundo blob contém metade de amostras positivas e metade de amostras negativas. A probabilidade neste blob é, portanto, 0,5.

Naive Bayes Gaussiano

Utilizamos Naive Bayes Gaussiano para classificação, que frequentemente apresenta probabilidades mal calibradas. Comparamos a probabilidade estimada usando um classificador Naive Bayes Gaussiano sem calibração, com calibração sigmóide e com calibração isotônica não paramétrica.

Plotar Dados e Probabilidades Previstas

Plotamos os dados e as probabilidades previstas.

Sumário

Neste laboratório, geramos um conjunto de dados sintético, utilizamos Naive Bayes Gaussiano para classificação e comparamos a probabilidade estimada usando um classificador Naive Bayes Gaussiano sem calibração, com calibração sigmóide e com calibração isotônica não paramétrica. Em seguida, plotamos os dados e as probabilidades previstas. Ao comparar as perdas do score de Brier, descobrimos que apenas o modelo não paramétrico é capaz de fornecer uma calibração de probabilidade que retorna probabilidades próximas a 0,5 para a maioria das amostras pertencentes ao cluster central com rótulos heterogêneos. Isso resulta em uma melhoria significativa do score de Brier.