Понимание сложности модели

Beginner

This tutorial is from open-source community. Access the source code

Введение

В этом лабораторном занятии мы исследуем, как сложность модели влияет на точность предсказания и вычислительную производительность. Мы будем использовать два датасета: датасет Diabetes для регрессии и датасет 20newsgroups для классификации. Мы будем моделировать влияние сложности на три различных оценщика:

  • SGDClassifier (для классификационных данных), который реализует стохастический градиентный спуск обучения
  • NuSVR (для регрессионных данных), который реализует Nu-регрессию на основе векторов поддержки
  • GradientBoostingRegressor строит аддитивную модель в последовательном этапе вперед

Мы будем изменять сложность модели путём выбора соответствующих параметров модели в каждом из выбранных нами моделей. Далее мы будем измерять влияние на как вычислительную производительность (задержка) и предсказательную способность (MSE или потери Хэмминга).

Советы по работе с ВМ

После запуска ВМ перейдите в левый верхний угол и переключитесь на вкладку Notebook, чтобы приступить к практике в Jupyter Notebook.

Иногда вам может потребоваться подождать несколько секунд, пока Jupyter Notebook загрузится. Валидация операций не может быть автоматизирована из-за ограничений Jupyter Notebook.

Если вы сталкиваетесь с проблемами во время обучения, не стесняйтесь обращаться к Labby. Оставьте отзыв после занятия, и мы оперативно решим проблему для вас.

Загрузка данных

Мы загружаем оба датасета: датасет diabetes для регрессии и датасет 20newsgroups для классификации.

Выбор параметров

Мы выбираем параметры для каждого из наших оценщиков, создав словарь со всеми необходимыми значениями. Мы определяем изменяемый параметр, метку сложности, компьютер для вычисления сложности, данные и другие значения конфигурации для каждого оценщика.

Влияние бенчмарка

Мы вычисляем влияние параметров на заданный оценщик. В каждом раунде мы настраиваем оценщик с новым значением изменяемого параметра и собираем времена предсказания, производительность предсказания и сложности, чтобы увидеть, как эти изменения влияют на оценщик. Мы вычисляем сложность с использованием компьютера сложности, переданного в качестве параметра.

Построение графиков результатов

Мы строим графики зависимости точности и задержки от сложности модели. На оси y откладываем ошибку предсказания, а на оси x - сложность модели. Мы строим на одном графике и ошибку предсказания, и задержку предсказания.

Обзор

В этом практическом занятии мы изучили, как сложность модели влияет на точность предсказания и вычислительную производительность. Мы изменяли сложность модели, выбирая соответствующие параметры модели в каждом из выбранных нами моделей. Затем мы измеряли влияние на как вычислительную производительность (задержка) и предсказательную способность (MSE или потерю Хэмминга). Мы пришли к выводу, что более сложная модель требует большего времени обучения и не гарантирует уменьшения ошибки предсказания.