简介
在本项目中,你将学习如何实现一个不平衡数据管道,该管道能够处理不平衡数据集并生成具有近似平衡类分布的批次数据。这是机器学习中的一项常见任务,在该任务中,数据集中某个类别的样本可能比其他类别多得多,这可能导致模型训练出现偏差并降低性能。
🎯 任务
在本项目中,你将学习:
- 如何实现上采样和下采样功能,以平衡批次内的样本分布。
- 如何输出一批样本数量等于批次大小的样本,其中批次内标签的分布尽可能均匀。
- 如何测试不平衡数据管道,以确保其按预期工作。
🏆 成果
完成本项目后,你将能够:
- 处理机器学习中的不平衡数据集。
- 应用上采样和下采样技术来平衡类分布。
- 实现一个能够从不平衡数据集中生成平衡批次的数据管道。