はじめに
このプロジェクトでは、不均衡なデータセットを処理し、ほぼ均衡したクラス分布を持つバッチを生成できる不均衡なデータパイプラインを実装する方法を学びます。これは機械学習における一般的なタスクであり、データセットにはあるクラスのサンプルが他のクラスに比べて大幅に多い場合があり、これがバイアスのあるモデル学習と性能の低下につながる可能性があります。
🎯 タスク
このプロジェクトでは、以下を学びます。
- バッチ内のサンプル分布をバランスさせるためのアップサンプリングとダウンサンプリングの機能を実装する方法。
- バッチサイズと同じサンプル数のバッチを出力する方法で、バッチ内のラベルの分布ができるだけ等しくなるようにする。
- 不均衡なデータパイプラインをテストして、期待通りに機能していることを確認する方法。
🏆 成果
このプロジェクトを完了すると、以下のことができるようになります。
- 機械学習における不均衡なデータセットを処理する。
- クラス分布をバランスさせるためのアップサンプリングとダウンサンプリングの技術を適用する。
- 不均衡なデータセットからバランスしたバッチを生成できるデータパイプラインを実装する。