分箱的原因:
1、模型稳定:在一般情况下建立分类模型是,需要对连续变量进行离散化,离散后的特征能够去除噪声,对异常值不再敏感,使得模型可以更加的稳定。
2、简化模型:降低样本中的个别信息对模型的影响,降低过拟合的风险。
分箱的目的:
1、离散特征的增加和减少很容易,易于模型的快速迭代。
2、稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展。
3、列表内容离散化后的特征对异常数据有很强的鲁棒性。【离散化后的,减少异常数据对模型干扰】
4、列表内容逻辑回归属于广义线性模型,表达能力受限;单变量离散化为N个后,每个变量都有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合。
5、离散化后可以进行特征交叉,有M+N变量变成M*N个变量,进一步引入非线性,提高表达能力。
6、列表内容特征离散化后,模型更加稳定,且起到简化模型的作用,降低模型过拟合的风险。
7、将所有变量变换到相似的尺度上。
卡方分箱原理:
卡方值的计算公式的意义是衡量观测值与理论值的距离,如果卡方值小,说明观测值和理论值差距很小,也就说明特征无论取x1或x2,类别的分布是相似的。
因为对于精确的离散化,相对类频率在一个区间内应当完全一致。 因此如果两个相邻 的区间具有非常类似的类分布,则这两个区间可以合并,即当越低卡方值,说明他们具有越相似的类分布。
卡方分箱步骤:
1、设定卡方的阈值
2、初始化
根据离散化的属性对实例进行排序:每个实例属于一个区间
3、合并区间
①计算每一相邻区间的卡方值
②将卡方值最小的一对区间合并
卡方阈值的确定
1、根据显著性水平和自由度确定
2、自由度=(行数-1)*(列数-1)。【自由度为2的90%置信度(10%置信水平)下,卡方的值为4.6】
3、类别和属性相互独立时,有90% 的可能计算得到的卡方值会小于4.6,当大于阈值4.6时,说明类别和属性不是相互独立的,不能合并。
4、阈值选择过大,则区间合并会进行很多次,使得区间数量少,区间大。








暂无数据