Введение
В этом лабораторном задании мы будем использовать датасет Ames Housing для сравнения различных методов обработки категориальных признаков в методах градиентного бустинга. Датасет содержит как числовые, так и категориальные признаки, а таргетом является цена продажи домов. Мы сравним производительность четырех различных конвейеров:
- Игнорирование категориальных признаков
- One-hot кодирование категориальных признаков
- Treating the categorical features as ordinal values
- Использование встроенной поддержки категориальных признаков в методе градиентного бустинга
Мы оценим конвейеры по времени обучения и производительности предсказания с использованием кросс-валидации.
Советы по работе с ВМ
После запуска ВМ кликните в левом верхнем углу, чтобы переключиться на вкладку Notebook и получить доступ к Jupyter Notebook для практики.
Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook загрузится. Проверка операций не может быть автоматизирована из-за ограничений Jupyter Notebook.
Если вы столкнетесь с проблемами во время обучения, не стесняйтесь задавать вопросы Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.