Введение
В этом лабораторном задании мы будем использовать алгоритм спектрального ко-кластеризации на наборе данных "двадцать новостных групп" для бикластеризации документов. В наборе данных есть 20 категорий документов, и мы исключим категорию "comp.os.ms-windows.misc", так как она содержит сообщения без данных. Посты, векторизованные с использованием TF-IDF, формируют матрицу частот слов, которая затем бикластеризуется с использованием алгоритма спектрального ко-кластеризации Диллеона. Полученные документ-словарные бикластеры показывают подмножества слов, которые чаще используются в этих подмножествах документов. Мы также сгруппируем документы с использованием MiniBatchKMeans для сравнения.
Советы по использованию ВМ
После запуска ВМ нажмите в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.
Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook загрузится. Валидация операций не может быть автоматизирована из-за ограничений в Jupyter Notebook.
Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.