Введение
Обнаружение новизны и выбросов - это методы, используемые для определения, принадлежит ли новое наблюдение той же распределению, что и существующие наблюдения, или следует ли его рассматривать как отличающееся. Эти методы обычно используются для очистки реальных наборов данных путём идентификации аномальных или необычных наблюдений.
В этом контексте существуют два важных отличия:
- Обнаружение выбросов: В наборе обучающих данных есть выбросы, то есть наблюдения, которые находятся далеко от других. Экстремальные значения (выбросы) определяют области, в которых наиболее концентрировано обучающее множество, игнорируя отклоняющиеся наблюдения.
- Обнаружение новизны: В наборе обучающих данных нет выбросов, и цель заключается в определении, является ли новое наблюдение выбросом. В этом контексте выброс также называется новизной.
Проект scikit-learn предоставляет набор инструментов машинного обучения, которые можно использовать для обнаружения как новизны, так и выбросов. Эти инструменты реализованы с использованием алгоритмов обучения без учителя, что означает, что они обучаются распознавать закономерности в данных без необходимости помеченных примеров.
Советы по работе с ВМ
После запуска ВМ перейдите в левый верхний угол и переключитесь на вкладку Notebook, чтобы приступить к практике с использованием Jupyter Notebook.
Иногда может потребоваться подождать несколько секунд, пока Jupyter Notebook полностью загрузится. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.
Если вы столкнетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.