Introdução
Neste projeto, você aprenderá como implementar um pipeline de dados desbalanceado que pode processar conjuntos de dados desbalanceados e gerar batches com distribuições de classes aproximadamente balanceadas. Esta é uma tarefa comum em machine learning (aprendizagem automática), onde o conjunto de dados pode ter significativamente mais amostras de uma classe em comparação com outras, o que pode levar a um treinamento de modelo tendencioso e baixo desempenho.
🎯 Tarefas
Neste projeto, você aprenderá:
- Como implementar a funcionalidade de upsampling (amostragem ascendente) e downsampling (amostragem descendente) para balancear a distribuição de amostras dentro de um batch.
- Como gerar um batch de amostras com uma contagem de amostras igual ao tamanho do batch, onde a distribuição dos rótulos dentro do batch é a mais igual possível.
- Como testar o pipeline de dados desbalanceado para garantir que ele está funcionando conforme o esperado.
🏆 Conquistas
Após concluir este projeto, você será capaz de:
- Lidar com conjuntos de dados desbalanceados em machine learning.
- Aplicar técnicas de upsampling e downsampling para balancear as distribuições de classes.
- Implementar um pipeline de dados que pode gerar batches balanceados a partir de um conjunto de dados desbalanceado.


