Generación de lotes equilibrados para conjuntos de datos desequilibrados

Principiante

En este proyecto, aprenderá cómo implementar una canalización de datos desequilibrados que pueda procesar conjuntos de datos desequilibrados y generar lotes con distribuciones de clases aproximadamente equilibradas. Esta es una tarea común en el aprendizaje automático, donde el conjunto de datos puede tener significativamente más muestras de una clase en comparación con otras, lo que puede llevar a un entrenamiento de modelo sesgado y un rendimiento deficiente.

Machine Learning

💡 Este tutorial está traducido por IA desde la versión en inglés. Para ver la versión original, puedes hacer clic aquí

Introducción

En este proyecto, aprenderá a implementar una canalización de datos desequilibrada que puede procesar conjuntos de datos desequilibrados y generar lotes con distribuciones de clases aproximadamente equilibradas. Esta es una tarea común en el aprendizaje automático, donde el conjunto de datos puede tener significativamente más muestras de una clase en comparación con otras, lo que puede conducir a un entrenamiento sesgado del modelo y a un rendimiento pobre.

🎯 Tareas

En este proyecto, aprenderá:

  • Cómo implementar la funcionalidad de submuestreo y sobremuestreo para equilibrar la distribución de muestras dentro de un lote.
  • Cómo generar un lote de muestras con un recuento de muestras igual al tamaño del lote, donde la distribución de las etiquetas dentro del lote sea lo más equitativa posible.
  • Cómo probar la canalización de datos desequilibrada para asegurarse de que funcione como se espera.

🏆 Logros

Después de completar este proyecto, podrá:

  • Manejar conjuntos de datos desequilibrados en el aprendizaje automático.
  • Aplicar técnicas de submuestreo y sobremuestreo para equilibrar las distribuciones de clases.
  • Implementar una canalización de datos que pueda generar lotes equilibrados a partir de un conjunto de datos desequilibrado.

Profesor

labby

Labby

Labby is the LabEx teacher.

Recomendado Para Ti

no data