2020-06-25
阅读量:
750
多分类变量转成数值标签的时候,转成1、2、3 或者 其他任意数字,放入模型中的时候有区别吗?
如果分类之间有顺序关系,比如学历,职级等,可以转换成1,2,3.....,这时的1,2,3只是代码,不考虑数值本身大小的属性;
如果各分类之间没有顺序关系, 比如民族,血型等分类变量,最好不要直接转换成1,2,3这种,可以尝试独热编码。独热编码又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。即,只有一位是1,其余都是零值。
例如
地区特征:["北京","上海,"深圳"](这里N=3):
北京 => 100
上海 => 010
深圳 => 001






评论(0)


暂无数据
推荐帖子
0条评论
0条评论