Введение
Этот лаба исследует влияние равномерно распределенного случайного labeling на поведение некоторых метрик оценки кластеризации. Алгоритмы кластеризации в основном методы обучения без учителя, а метрики оценки используют информацию "с учителем" для количественной оценки качества получившихся кластеров. Однако, неадаптированные метрики оценки кластеризации могут быть ошибающими, так как они выдают большие значения для мелконастроенных labeling, которые могут быть совершенно случайными. Поэтому только адаптированные меры можно безопасно использовать в качестве индекса консенсуса для оценки средней стабильности алгоритмов кластеризации для заданного значения k на различных перекрывающихся подвыборках датасета.
Советы по работе с ВМ
После запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.
Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook не загрузится полностью. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.
Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.