Введение
В этом проекте вы научитесь реализовывать несбалансированный конвейер данных, который может обрабатывать несбалансированные наборы данных и генерировать пакеты с приблизительно сбалансированным распределением классов. Это распространенная задача в машинном обучении, где в наборе данных может быть значительно больше примеров одного класса по сравнению с другими, что может привести к искаженному обучению модели и плохим результатам.
🎯 Задачи
В этом проекте вы научитесь:
- Как реализовать функциональность upsampling и downsampling для балансировки распределения выборок внутри пакета.
- Как выводить пакет выборок с количеством выборок, равным размеру пакета, где распределение меток внутри пакета尽可能равномерно.
- Как тестировать несбалансированный конвейер данных, чтобы убедиться, что он работает как ожидается.
🏆 Достижения
После завершения этого проекта вы сможете:
- Обрабатывать несбалансированные наборы данных в машинном обучении.
- Применять методы upsampling и downsampling для балансировки распределения классов.
- Реализовать конвейер данных, который может генерировать сбалансированные пакеты из несбалансированного набора данных.