Введение
В этом практическом занятии демонстрируется задача классификации многонаправленных документов с использованием scikit-learn. Набор данных генерируется случайным образом по следующему процессу:
- Выбрать количество меток: n ~ Poisson(n_labels)
- N раз выбрать класс c: c ~ Multinomial(theta)
- Выбрать длину документа: k ~ Poisson(length)
- K раз выбрать слово: w ~ Multinomial(theta_c)
В этом процессе используется метод отбора с отклонением, чтобы гарантировать, что n больше 2 и длина документа никогда не равна нулю. Также отклоняются уже выбранные классы. Документы, которые относятся к обоим классам, изображаются, окруженными двумя цветными кругами.
Советы по использованию ВМ
После запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.
Иногда может потребоваться подождать несколько секунд, пока Jupyter Notebook не загрузится полностью. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.
Если вы сталкиваетесь с проблемами при обучении, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.