热线电话:13121318867

登录
首页精彩阅读 K近算法之杰卡德相似系数
K近算法之杰卡德相似系数
2014-11-30
收藏

 K近算法之杰卡德相似系数

  •  杰卡德相似系数(Jaccard similarity coefficient)
(1) 杰卡德相似系数       
两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示。 
 
杰卡德相似系数是衡量两个集合的相似度一种指标。
(2) 杰卡德距离       
与杰卡德相似系数相反的概念是杰卡德距离(Jaccard distance)。
杰卡德距离可用如下公式表示:  
杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。
(3) 杰卡德相似系数与杰卡德距离的应用      
可将杰卡德相似系数用在衡量样本的相似度上。
举例:样本A与样本B是两个n维向量,而且所有维度的取值都是0或1,例如:A(0111)和B(1011)。我们将样本看成是一个集合,1表示集合包含该元素,0表示集合不包含该元素。
M11 :样本A与B都是1的维度的个数
M01:样本A是0,样本B是1的维度的个数
M10:样本A是1,样本B是0 的维度的个数
M00:样本A与B都是0的维度的个数
依据上文给的杰卡德相似系数及杰卡德距离的相关定义,样本A与B的杰卡德相似系数J可以表示为:
这里M11+M01+M10可理解为A与B的并集的元素个数,而M11是A与B的交集的元素个数。而样本A与B的杰卡德距离表示为J':

数据分析咨询请扫描二维码

最新资讯
更多
客服在线
立即咨询