소개
이 프로젝트에서는 불균형 데이터 세트를 처리하고, 클래스 분포가 대략적으로 균형을 이루는 배치를 생성할 수 있는 불균형 데이터 파이프라인을 구현하는 방법을 배우게 됩니다. 이는 머신 러닝에서 흔히 발생하는 작업으로, 데이터 세트가 다른 클래스에 비해 한 클래스에서 훨씬 더 많은 샘플을 가질 수 있으며, 이는 편향된 모델 훈련과 성능 저하로 이어질 수 있습니다.
🎯 과제
이 프로젝트에서 다음을 배우게 됩니다:
- 배치 내 샘플 분포를 균형 있게 하기 위해 업샘플링 (upsampling) 및 다운샘플링 (downsampling) 기능을 구현하는 방법.
- 배치 크기와 동일한 샘플 수를 가진 샘플 배치를 출력하는 방법, 여기서 배치 내 레이블의 분포는 가능한 한 균등합니다.
- 불균형 데이터 파이프라인이 예상대로 작동하는지 확인하기 위해 테스트하는 방법.
🏆 성과
이 프로젝트를 완료하면 다음을 수행할 수 있습니다:
- 머신 러닝에서 불균형 데이터 세트를 처리할 수 있습니다.
- 클래스 분포를 균형 있게 하기 위해 업샘플링 (upsampling) 및 다운샘플링 (downsampling) 기술을 적용할 수 있습니다.
- 불균형 데이터 세트에서 균형 잡힌 배치를 생성할 수 있는 데이터 파이프라인을 구현할 수 있습니다.


