Introduction
En apprentissage automatique (machine learning), nous divisons souvent nos données en un ensemble d'entraînement (training set) et un ensemble de test (testing set) pour évaluer la performance d'un modèle. Cependant, cette évaluation peut dépendre fortement des points de données qui se retrouvent dans l'ensemble d'entraînement par rapport à l'ensemble de test. Une méthode plus robuste est la validation croisée (cross-validation, CV).
Pourquoi la validation croisée ?
- Réduit le risque de surapprentissage (overfitting) : Teste le modèle sur plusieurs divisions de données.
- Meilleure estimation de la généralisation : Performance plus fiable sur des données non vues.
- Maximise l'utilisation des données : Chaque échantillon est utilisé à la fois pour l'entraînement et le test.
La validation croisée consiste à diviser le jeu de données en plusieurs "plis" (folds), puis à entraîner et évaluer le modèle plusieurs fois, en utilisant un pli différent pour le test à chaque fois. Cela nous donne une estimation plus fiable de la performance du modèle sur des données non vues.
Dans ce laboratoire, vous apprendrez à utiliser les fonctions puissantes et pratiques de scikit-learn pour effectuer une validation croisée sur un classifieur en utilisant le célèbre jeu de données Iris. Vous apprendrez à utiliser cross_val_score pour obtenir des scores de performance, puis à calculer leur moyenne et leur écart type pour mieux comprendre la stabilité et la précision globale du modèle.



