热线电话:13121318867

登录
2020-06-25 阅读量: 750
多分类变量转成数值标签的时候,转成1、2、3 或者 其他任意数字,放入模型中的时候有区别吗?

如果分类之间有顺序关系,比如学历,职级等,可以转换成1,2,3.....,这时的1,2,3只是代码,不考虑数值本身大小的属性;

如果各分类之间没有顺序关系, 比如民族,血型等分类变量,最好不要直接转换成1,2,3这种,可以尝试独热编码。独热编码又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。即,只有一位是1,其余都是零值。


例如

地区特征:["北京","上海,"深圳"](这里N=3):

北京 => 100

上海 => 010

深圳 => 001


54.4673
4
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子