Калибровка вероятностей классификаторов

Machine LearningMachine LearningBeginner
Практиковаться сейчас

This tutorial is from open-source community. Access the source code

💡 Этот учебник переведен с английского с помощью ИИ. Чтобы просмотреть оригинал, вы можете перейти на английский оригинал

Введение

В задачах классификации часто важно предсказывать не только метку класса, но и соответствующую вероятность. Вероятность показывает степень уверенности в предсказании. Однако не все классификаторы выдают хорошо калиброванные вероятности: некоторые слишком уверены, а другие недостаточно. Часто требуется отдельная калибровка предсказанных вероятностей в качестве постобработки. В этом лабе показаны два различных метода для такой калибровки и оценивается качество возвращаемых вероятностей с использованием Brier-оценки.

Советы по работе с ВМ

После запуска ВМ кликните в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.

Иногда может потребоваться подождать несколько секунд, пока Jupyter Notebook не загрузится полностью. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.


Skills Graph

%%%%{init: {'theme':'neutral'}}%%%% flowchart RL ml(("Machine Learning")) -.-> ml/FrameworkandSoftwareGroup(["Framework and Software"]) ml/FrameworkandSoftwareGroup -.-> ml/sklearn("scikit-learn") subgraph Lab Skills ml/sklearn -.-> lab-49075{{"Калибровка вероятностей классификаторов"}} end

Генерация синтетического датасета

Во - первых, мы генерируем синтетический датасет, содержащий три кластера с двумя классами, где второй кластер содержит половину положительных и половину отрицательных образцов. Вероятность в этом кластере составляет 0,5.

Гауссовский наивный Байес

Для классификации мы используем Гауссовский наивный Байес, который часто имеет плохо калиброванные вероятности. Мы сравниваем оцененную вероятность, используя классификатор Гауссовского наивного Байеса без калибровки, с сигмоидальной калибровкой и с непараметрической изотонной калибровкой.

Построение графика данных и предсказанных вероятностей

Мы строим график данных и предсказанных вероятностей.

Резюме

В этом лабе мы сгенерировали синтетический датасет, использовали Гауссовский наивный Байес для классификации и сравнили оцененную вероятность, используя классификатор Гауссовского наивного Байеса без калибровки, с сигмоидальной калибровкой и с непараметрической изотонной калибровкой. Затем мы построили график данных и предсказанных вероятностей. Сравнив потери по Brier-оценке, мы обнаружили, что только непараметрическая модель способна обеспечить калибровку вероятностей, которая возвращает вероятности, близкие к ожидаемым 0,5 для большинства образцов, принадлежащих среднему кластеру с неоднородными метками. Это приводит к значительному улучшению Brier-оценки.