Introducción
En este proyecto, aprenderá a implementar una canalización de datos desequilibrada que puede procesar conjuntos de datos desequilibrados y generar lotes con distribuciones de clases aproximadamente equilibradas. Esta es una tarea común en el aprendizaje automático, donde el conjunto de datos puede tener significativamente más muestras de una clase en comparación con otras, lo que puede conducir a un entrenamiento sesgado del modelo y a un rendimiento pobre.
🎯 Tareas
En este proyecto, aprenderá:
- Cómo implementar la funcionalidad de submuestreo y sobremuestreo para equilibrar la distribución de muestras dentro de un lote.
- Cómo generar un lote de muestras con un recuento de muestras igual al tamaño del lote, donde la distribución de las etiquetas dentro del lote sea lo más equitativa posible.
- Cómo probar la canalización de datos desequilibrada para asegurarse de que funcione como se espera.
🏆 Logros
Después de completar este proyecto, podrá:
- Manejar conjuntos de datos desequilibrados en el aprendizaje automático.
- Aplicar técnicas de submuestreo y sobremuestreo para equilibrar las distribuciones de clases.
- Implementar una canalización de datos que pueda generar lotes equilibrados a partir de un conjunto de datos desequilibrado.