Geração de Lotes Balanceados para Conjuntos de Dados Desbalanceados

Iniciante

Neste projeto, você aprenderá como implementar um pipeline de dados desbalanceados que pode processar conjuntos de dados desbalanceados e gerar lotes com distribuições de classe aproximadamente balanceadas. Esta é uma tarefa comum em machine learning, onde o conjunto de dados pode ter significativamente mais amostras de uma classe em comparação com outras, o que pode levar a um treinamento de modelo tendencioso e baixo desempenho.

pythondata-science

💡 Este tutorial foi traduzido do inglês com assistência de IA. Para ver o original, você pode mudar para a versão em inglês

Introdução

Neste projeto, você aprenderá como implementar um pipeline de dados desbalanceado que pode processar conjuntos de dados desbalanceados e gerar batches com distribuições de classes aproximadamente balanceadas. Esta é uma tarefa comum em machine learning (aprendizagem automática), onde o conjunto de dados pode ter significativamente mais amostras de uma classe em comparação com outras, o que pode levar a um treinamento de modelo tendencioso e baixo desempenho.

🎯 Tarefas

Neste projeto, você aprenderá:

  • Como implementar a funcionalidade de upsampling (amostragem ascendente) e downsampling (amostragem descendente) para balancear a distribuição de amostras dentro de um batch.
  • Como gerar um batch de amostras com uma contagem de amostras igual ao tamanho do batch, onde a distribuição dos rótulos dentro do batch é a mais igual possível.
  • Como testar o pipeline de dados desbalanceado para garantir que ele está funcionando conforme o esperado.

🏆 Conquistas

Após concluir este projeto, você será capaz de:

  • Lidar com conjuntos de dados desbalanceados em machine learning.
  • Aplicar técnicas de upsampling e downsampling para balancear as distribuições de classes.
  • Implementar um pipeline de dados que pode gerar batches balanceados a partir de um conjunto de dados desbalanceado.

Professor

labby
Labby
Labby is the LabEx teacher.

Recomendado para Você

no data