Введение
В этом лабораторном задании мы изучим векторизацию текста, которая представляет собой процесс представления нечисловых входных данных (например, словарей или текстовых документов) в виде векторов вещественных чисел. Мы сравним два метода, FeatureHasher
и DictVectorizer
, путём векторизации текстовых документов, предварительно обработанных (токенизированных) с помощью настраиваемой функции на Python.
Советы по использованию ВМ
После запуска ВМ перейдите в левый верхний угол и переключитесь на вкладку Ноутбук, чтобы приступить к практике в Jupyter Notebook.
Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook полностью загрузится. Проверка операций не может быть автоматизирована из-за ограничений Jupyter Notebook.
Если вы столкнетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.