Введение
В машинном обучении мы часто разделяем наши данные на обучающий (training set) и тестовый (testing set) наборы для оценки производительности модели. Однако эта оценка может сильно зависеть от того, какие точки данных попадут в обучающий набор, а какие — в тестовый. Более надежным методом является кросс-валидация (cross-validation, CV).
Зачем нужна кросс-валидация?
- Снижает риск переобучения (overfitting): Тестирует модель на нескольких разделениях данных.
- Улучшает оценку обобщающей способности (generalization): Более надежная производительность на невидимых данных.
- Максимизирует использование данных: Каждый образец используется как для обучения, так и для тестирования.
Кросс-валидация включает разделение набора данных на несколько "фолдов" (folds), а затем многократное обучение и оценку модели, используя каждый раз разный фолд для тестирования. Это дает нам более надежную оценку производительности модели на невидимых данных.
В этой лабораторной работе вы научитесь использовать мощные и удобные функции scikit-learn для выполнения кросс-валидации классификатора на знаменитом наборе данных Iris. Вы научитесь использовать cross_val_score для получения оценок производительности, а затем вычислите их среднее значение и стандартное отклонение, чтобы лучше понять стабильность модели и общую точность.



