2018-10-19
阅读量:
2399
数据分箱是干啥的?有什么作用
一、数据分箱的情景有三种:
- 某些数值自变量在测量时存在随机误差,需要对数值进行平滑以消除噪音
- 有些数值自变量有大量不重复的取值,对于使用<、>、=等基本操作符的算法(如决策树)而言,如果能减少这些不重复取值的个数,就能提高算法的速度
- 有些算法只能使用分类自变量,需要把数值变量离散化
二、数据分箱的方法有两大类,有监督的分箱方法和无监督的分箱方法。
有监督的分箱方法:
- 假设因变量为分类变量,可取值1,…,J。令pl(j)表示第l个分箱内因变量取值为j的观测的比例,l=1,…,k,j=1,…,J;那么第l个分箱的熵值为Jj=1[-pl(j)×log(pl(j))]。如果第l个分箱内因变量各类别的比例相等,即pl(1)=…=pl(J)=1/J,那么第l个分箱的熵值达到最大值;如果第l个分箱内因变量只有一种取值,即某个pl(j)等于1而其他类别的比例等于0,那么第l个分箱的熵值达到最小值。
- 令rl表示第l个分箱的观测数占所有观测数的比例;那么总熵值为kl= 1rl×Jj=1[-pl(j)×log(pl(j ))]。需要使总熵值达到最小,也就是使分箱能够最大限度地区分因变量的各类别。
无监督的分箱方法:
假设要将某个自变量的观测值分为k个分箱,一些常用的分箱方法有:
(1)等宽分箱:将变量的取值范围分为k个等宽的区间,每个区间当作一个分箱。
(2)等频分箱:把观测值按照从小到大的顺序排列,根据观测的个数等分为k部分,每部分当作一个分箱,例如,数值最小的1/k比例的观测形成第一个分箱,等等。
(3)基于k均值聚类的分箱:使用k均值聚类法将观测值聚为k类,但在聚类过程中需要保证分箱的有序性:第一个分箱中所有观测值都要小于第二个分箱中的观测值,第二个分箱中所有观测值都要小于第三个分箱中的观测值,等等。
0.0199
1
5
关注作者
收藏
评论(0)
发表评论
暂无数据
推荐帖子
0条评论
0条评论
1条评论