Introducción
En el aprendizaje automático (machine learning), a menudo dividimos nuestros datos en un conjunto de entrenamiento (training set) y un conjunto de prueba (testing set) para evaluar el rendimiento de un modelo. Sin embargo, esta evaluación puede depender en gran medida de qué puntos de datos terminan en el conjunto de entrenamiento frente al conjunto de prueba. Un método más robusto es la validación cruzada (cross-validation, CV).
¿Por qué validación cruzada?
- Reduce el riesgo de sobreajuste (overfitting): Prueba el modelo en múltiples divisiones de datos.
- Mejor estimación de generalización: Rendimiento más fiable en datos no vistos.
- Maximiza el uso de datos: Cada muestra se utiliza tanto para entrenamiento como para prueba.
La validación cruzada implica dividir el conjunto de datos en múltiples "pliegues" (folds) y luego entrenar y evaluar el modelo varias veces, utilizando un pliegue diferente para la prueba cada vez. Esto nos da una estimación más fiable del rendimiento del modelo en datos no vistos.
En este laboratorio, aprenderá a utilizar las potentes y convenientes funciones de scikit-learn para realizar validación cruzada en un clasificador utilizando el famoso conjunto de datos Iris. Aprenderá a usar cross_val_score para obtener puntuaciones de rendimiento y luego calcular su media y desviación estándar para comprender mejor la estabilidad y la precisión general del modelo.



