热线电话:13121318867

登录
2018-10-29 阅读量: 916
基于抽样的算法SMOTE

2002年,引入了一种基于抽样的算法SMOTE(Synthetic Minority Over-Sampling Technique),试图解决类不平衡问题。由于其简单性和有效性,它是最常用的方法之一。它是过采样和欠采样的组合,但过采样方法不是复制少数类,而是通过算法构造新的少数类数据实例。

在传统的过采样中,少数类正在被复制。在SMOTE中,以这种方式构造新的少数派实例:

SMOTE

构造算法背后的直觉是过采样导致过度拟合,因为重复实例导致决策边界收紧。相反,我们将创建“类似”的示例。对于机器学习算法,这些新构造的实例不是精确的副本,因此软化了决策边界。这可以说明如下:

结果,分类器更通用并且不会过度拟合。

114.3933
2
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子