2018-10-23
阅读量:
735
如何解决类别不平衡问题?
有些情况下训练集中的样本分布很不平衡,例如在肿瘤检测等问题中,正样本的个数往往非常的少。
从线性分类器的角度,在用 y = wx +b 对新样本进行分类的时候,事实上在用预测出的y值和一个y值进行比较,例如常常在y>0.5的时候判为正例,否则判为反例。几率y/1-y反映了正例可能性和反例可能性的比值,阈值0.5恰好表明分类器认为正反的可能性相同。
在样本不均衡的情况下,应该是分类器的预测几率高于观测几率就判断为正例,因此应该是 y/1-y > m+/m- 时预测为正例,这种策略称为rebalancing。但是训练集并不一定是真实样本总体的无偏采样,通常有三种做法,一种是对训练集的负样本进行欠采样,第二种是对正例进行升采样,第三种是直接基于原始训练集进行学习,在预测的时候再改变阈值,称为阈值移动。
注意过采样一般通过对训练集的正例进行插值产生额外的正例,而欠采样将反例划分为不同的集合供不同的学习器使用。
0.0000
0
1
关注作者
收藏
评论(0)
发表评论
暂无数据
推荐帖子
0条评论
0条评论
1条评论