Introduction
Dans ce projet, vous allez apprendre à implémenter un pipeline de données déséquilibré capable de traiter des ensembles de données déséquilibrés et de générer des lots avec des distributions de classes approximativement équilibrées. Il s'agit d'une tâche courante en apprentissage automatique, où l'ensemble de données peut avoir beaucoup plus d'échantillons d'une classe par rapport aux autres, ce qui peut entraîner une formation de modèle biaisée et de mauvaises performances.
🎯 Tâches
Dans ce projet, vous allez apprendre :
- Comment implémenter les fonctionnalités d'upsampling et de downsampling pour équilibrer la distribution d'échantillons dans un lot.
- Comment sortir un lot d'échantillons avec un nombre d'échantillons égal à la taille du lot, où la distribution des étiquettes dans le lot est le plus égale possible.
- Comment tester le pipeline de données déséquilibré pour vous assurer qu'il fonctionne comme prévu.
🏆 Réalisations
Après avoir terminé ce projet, vous serez capable de :
- Gérer des ensembles de données déséquilibrés en apprentissage automatique.
- Appliquer des techniques d'upsampling et de downsampling pour équilibrer les distributions de classes.
- Implémenter un pipeline de données qui peut générer des lots équilibrés à partir d'un ensemble de données déséquilibré.