2018-10-17
阅读量:
997
怎么理解one-hot?
在机器学习的算法中,特征不仅有连续值,也有离散值,比如大学的专业,此处举出三个[计算机,市场营销,化工]。离散值数字化的时候可以采用序列化映射的方式,即[计算机:1,市场营销:2,化工:3],这样计算出三者之间距离的结果分别是1,1,2。
wait a minute!凭什么'化工-计算机'之间的距离会大于'市场营销-计算机'的距离?这显然不合理,特征之间距离或相似度的计算应该基于欧式空间的距离。所以这时需要使用one-hot编码,将离散特征的取值扩展到欧式空间,离散特征的某个取值就对应欧式空间的某个点。
One-Hot编码,又称为独热码或一位有效编码,主要是采用N位状态寄存器来对N个状态进行编码,每个状态都有独立的寄存器位,并且在任意时候只有一位有效。那么上面的特征就变成了[计算机:[1,0,0],市场营销:[0,1,0],化工:[0,0,1]],这样计算出来,各专业之间的距离才是相同的。
74.5416
1
0
关注作者
收藏
评论(0)
发表评论
暂无数据
推荐帖子
0条评论
0条评论
1条评论