作者 | 我的智慧生活
来源 | 咪付
生活中,距离通常是用于形容两个地方或两个物体之间的远近。在人工智能机器学习领域,常使用距离来衡量两个样本之间的相似度。
“物以类聚”
我们知道“物以类聚”通常用于比喻同类的东西经常聚在一起。机器学习中,距离就是遵循物以类聚的思想。通过两个样本特征数据进行距离计算后,得到的距离值越小,代表两者的相似度越高,属于同一类的可能性就越高。换句话说,距离能够决定样本的归属。
例如,在下图中,对于机器学习来说存在着两种距离:
(1)一是人物的空间位置距离;
(2)二是人物的性格爱好距离。
对第1种距离来说,A与C较A与B近;而对第2种距离来说,则是A与B较近(爱打球)。A与B的爱好距离可通过如下计算:
我们用0—10分来表征每个人对打球的喜好程度,分数越高代表越爱打球,假设A、B、C三人的分值分别如下:
可以看出,A、B两人的分数较接近,A、B两人的分数差小于A、C两人的分数差,这个分数差值也就是机器学习中要计算的距离。通过比较得出,A、B两者的距离小,容易归为一类。当然,这里仅仅分析了爱打球这一个特征属性,机器学习中通常涉及多个属性进行综合计算和判断,也就是多维度分析。
物理几何空间距离
机器学习中,计算两个样本点之间的距离有多种不同的距离衡量方法,其中最常见的就是采用物理几何空间距离进行衡量。所谓物理几何空间距离就是点到点之间在物理空间中的真实距离。通俗地说,这类距离看得见、摸得着。常见的物理几何空间距离有:
欧氏距离
(Euclidean Distance)
曼哈顿距离
(Manhattan Distance)
切比雪夫距离
(Chebyshev Distance)
闵氏距离
(Minkowski Distance)
夹角余弦
(Cosine)
这几类物理几何空间距离的应用非常多,尤其是欧氏距离。
曼哈顿距离
我们首先从曼哈顿距离来形象了解机器学习中的距离,曼哈顿距离也是机器学习中常采用的一种距离。
我们知道曼哈顿是“世界的十字路口”,那里有非常多的十字交叉路口。
曼哈顿距离,说的是从街区中的一个十字路口到另一个十字路口所经过的街区距离,因此也称为城市街区距离。下图中给出了曼哈顿距离的形象说明,当我们开车从街区的一个十字路口(O)到了另一个十字路口(E)所经过的街区距离为:a+b,这就是曼哈顿距离。
O、E两点之间直线段距离是我们生活中常说的两个地方(O、E)之间的距离,而在实际街区中的情形,车辆无法从O沿直线开到E,除非具备像蜘蛛侠一样的飞行本领可以穿越其中的大楼,这就是曼哈顿距离的由来。
一图看清“欧曼雪”
下面我们再从简单的二维平面坐标图来对比了解欧氏距离、曼哈顿距离和切比雪夫距离(以下简称“欧曼雪”)这三种距离的区别。
上图是由X和Y组成的二维平面坐标,现有A、B两个二维样本值,其投影坐标点分别为:
A(X1,Y1)、B(X2,Y2)
A、B两点之间的直线段距离(图中的c)就是A、B两个样本的欧氏距离。因此,欧氏距离就是两个样本值投影在其坐标空间上的两点之间的直线距离。
如何计算A与B之间的欧氏距离?
从图中可以看出,A、B两点之间的直线段(c)与其横坐标差值线段:
a=X2-X1
纵坐标差值线段:
b=Y2-Y1
构成了一个直角三角形,根据勾股定理的关系可知:
c²=a²+b²
因此,我们可以根据坐标点A(X1,Y1)、B(X2,Y2),求得c值。即计算式为:
c²=a²+b²=(X2-X1)²+(Y2-Y1)²
A与B之间的曼哈顿距离又是怎样的距离呢?
上图中曼哈顿距离是由A沿直线走到C,再由C沿直线走到B,总共经过的距离,即为:
a+b=|X1-X2|+|Y1-Y2|
再来看切比雪夫距离,在上述二维平面坐标示意图中,A与B之间的切比雪夫距离则是选取a、b中值最大的,若a>b,切比雪夫距离即等于a,其计算表达式为:
Max(|X1-X2|,|Y1-Y2|)
由此可看出,上述“欧曼雪”三种距离的实质分别如下:
- 欧氏距离 -
两个样本同一特征分量值差值的平方之和,再开平方根
- 曼哈顿距离 -
两个样本同一特征分量值差值的绝对值之和
- 切比雪夫距离 -
两个样本同一特征分量值差值的绝对值中的最大值
假如现在有三个人A、B和C(即样本A、样本B和样本C),我们需要以性格、爱好这两个属性为依据来判断他们的相似度,A、B、C的综合属性值则表示为:A(性格1,爱好1)、B(性格2,爱好2)、C(性格3,爱好3)。
我们设定上述性格、爱好等每个分量特征属性的取值范围为0—10分。以性格活泼、爱好打球具体属性为例,若性格很活泼,分值为10,若性格不活泼,分值则为0分,其余介于很活泼和不活泼之间的,则取0—10之间的分值;同理,若很爱打球,分值为10分,不爱打球,分值则为0分,其余介于很爱打球和不爱打球之间的,则取0—10之间的分值。
针对性格活泼、爱好打球的两项特征,假设A、B、C三人的取值分别如下:
我们现以上述A、B、C三个样本A(4,4)、B(9,5)、C(6,1)投影到二维坐标上,分别计算A、B样本之间和A、C样本之间各自的欧氏距离、曼哈顿距离和切比雪夫距离,参照二维坐标投影图,计算结果如下:
从上表结果可知,A、C两个样本的欧氏距离、曼哈顿距离和切比雪夫距离均小于A、B两个样本,因此,A与C的相似度较高。这一结果与二维坐标图上的直观显示相符(即线段AC<AB)。这也很容易理解,两点之间的直线距离越小,当然就越靠近,如果两点完全重合,那就是零距离。
闵氏距离
由上述例子的计算结果可知,尽管欧氏距离、曼哈顿距离和切比雪夫距离各自的定义和计算都不相同,但它们最终衡量的结果是相一致的。这三类距离也可归为闵氏距离。
闵氏距离也称闵可夫斯基距离,根据其变参数p的不同,可以归为不同类型的距离,比如:曼哈顿距离(p=1);欧氏距离(p=2);切比雪夫距离(p→∞)。
我们已经知道欧氏距离的实质是两个样本同一特征分量值差值的平方和,然后再开平方根,这里的平方指数就是闵氏距离的变参数p取2,如果平方指数(即2次方)换成其他次方(比如1,3,4次方等等),那就是其他类闵氏距离。
因此,也可以将闵氏距离看成是欧氏距离指数的推广距离,两者实质特点对比如下:
可见,闵氏距离不仅涵盖了“欧曼雪”三种距离,实则也是欧氏距离指数的推广(指数范围扩大到任意整数)距离。
当然,以上仅考虑了性格、爱好这两个特征属性来分析判断两个人的相似度。但是如果仅凭性格、爱好两个方面来预估两人的相似度,似乎有点过于简单粗暴,通常情况下,我们还要结合更多的特征因素来综合考虑,例如人生观、价值观、家庭背景等,从而得出更加准确的归类判断结果。如果在性格、爱好两个特征的基础上增加人生观这一特征因素来评判,A、B两人的综合属性值则表示为:A(性格1,爱好1,人生观1)、B(性格2,爱好2,人生观2),其具体特征值假设为:A(4,4,3)、B(9,5,6),在计算各类距离时,则相应增加人生观这一特征的差值。例如:
曼哈顿距离计算为:
|4-9|+|4-5|+|3-6|=9;
切比雪夫距离计算为:
Max(|4-9|,|4-5|,|3-6|)=Max(5,1,3)=5;
欧氏距离计算为:
(4-9)²+(4-5)²+(3-6)² =5²+1²+3²=35,再开平方根所得。
对比上表中两维的计算式,可见,增加了|3-6|或(3-6)²这一项差值。
同理,如果在性格、爱好、人生观这三个特征属性的基础上,还需考虑价值观、家庭背景这两个特征属性,总共就变成了五个分量特征,那就是五维的情形。在计算上述各类距离时,则相应增加价值观、家庭背景这两个分量特征的差值。
可见,每增加一个分量特征,维度就增加一个,计算距离时则相应增加该维度分量特征的差值。人工智能机器学习中,为了达到更准确的分类目的,往往要涉及非常多的维度,因而其计算量也相应增大。例如我们熟悉的人脸识别应用中通常采用512维特征向量,即有512个分量特征,以更好地区别出每一个人。
假设分别用两个特征向量:
A(X1, X2,....,X511, X512)
B(Y1, Y2,....,Y511, Y512)
来表示两个512维人脸特征数据,则该两个人脸样本之间的欧氏距离为:
( (Y1-X1) ²+(Y2-X2) ² +......+(Y511-X511) ² +(Y512-X512) ²)
计算求得512个分量值差的平方和,再开平方根,即为两者的欧氏距离。这就是高维欧氏距离的计算。
夹角余弦
除了以上各类常见的闵氏距离,还有一种较常用的距离,那就是夹角余弦。夹角余弦根据两个样本向量的夹角余弦值大小来确定样本的相似性。余弦值越接近1,余弦夹角就越接近0度,两个向量越相似。
现我们仍以简单的平面二维坐标的来了解夹角余弦的本质。以上述A、B、C三个样本A(4,4)、B(9,5)、C(6,1)为例,其在二维平面坐标的投影点如下图所示,从坐标原点O出发分别指向A、B、C三个点的线段(OA、OB、OC)则为A、B、C三个样本点的向量,A、B之间的向量夹角则为θ1,A、C之间的向量夹角则为θ2,根据三角形AOB的边长可计算出θ1的余弦值,根据三角形AOC的边长可计算出θ2的余弦值。θ1、θ2夹角示意图及其计算式如下表所示:
夹角余弦计算公式(二维)
根据两个样本的坐标值计算
余弦值取值范围为[-1,1]。余弦值越大,夹角越小。
A、B样本夹角余弦值
向量OA与OB之间的夹角余弦值
A、C样本夹角余弦值
向量OA与OC之间的夹角余弦值
可以得出θ1<θ2,从而得出A和B相似度高。
通过对比发现,以上夹角余弦相似度的判断结果与欧氏距离等的判断结果正好相反。这是为什么呢?这是因为欧氏距离和余弦相似度各自的计算方式和衡量角度不相同,欧氏距离关注的是两点之间的绝对距离,而夹角余弦相似度注重的是两个向量在方向上的差异,而非距离。如下二维坐标图中,有A、C两个样本,欧氏距离关注的是AC两点的直线段距离,与OA、OC线段长度密切相关;而夹角余弦则是关注OA线段与OC线段重合需扫过的角度(θ)大小,与OA、OC线段长度无关。因此,夹角余弦相似度是整体方向性上的判断,而欧氏距离则是各分量特征的绝对差值判断。
我们还可以用两个等边三角形的例子来具体了解两者的实质差别。假设有两个等边三角形T1和T2,其边长分别为8和4,现以三个边长为分量特征属性来表征三角形,其在三维空间的投影坐标点分别为T1(8, 8, 8)、T2(4, 4, 4)。由边长数值可知,两个等边三角形虽然边长差距大,但形状完全相似。从其投影坐标点可知,由于T1、T2各个边长分量差值相同,两个坐标点在三维空间坐标上投影方向完全相同。对T1、T2之间的欧氏距离及夹角余弦作对比如下:
从以上对比分析可以看出,欧氏距离和余弦相似度各自的评判标准不同,得出的结论也可能完全不同,因此,两者可根据适用的场合选择采用。欧氏距离适用于需要从每个分量特征差距中体现差异的分析,如通过用户行为指标分析用户价值相似度。余弦相似度更适用于综合性的导向评价,如通过用户对内容评分来区分用户兴趣的相似度等,余弦相似度也常用于计算两个文本之间的相似度。
以上各类常见的物理几何空间距离不仅容易理解,而且方便好用,在样本各个维度数据完整好的情况下具有较理想的预判效果。但同时这几类距离也存在着一些明显的不足,如缺乏考虑各分量之间的相关性影响、各分量特征侧重排序等。
例如上述的例子中,也许需要对性格、爱好、人生观、价值观、家庭背景等分量特征进行侧重排序,又或者人生观这一分量特征会对价值观、爱好等分量特征有影响。如需考虑分量相关性、个体相对于总体的比重等相关因素,更多则是采用基于概率统计的分布距离,较常用的有:马氏距离、巴氏距离、杰卡德相似系数、皮尔逊系数等。这些距离的计算多涉及统计学及概率论知识,因而相对较复杂。
但无论是物理几何空间距离,还是基于概率统计的分布距离,它们的中心思想都是统一的,那就是距离越近越相似。
数据分析咨询请扫描二维码
在当今以数据为导向的商业环境中,数据分析师的角色变得越来越重要。无论是揭示消费者行为的趋势,还是优化企业运营的效率,数据 ...
2024-11-17在当今以数据为导向的商业环境中,数据分析师的角色变得越来越重要。无论是揭示消费者行为的趋势,还是优化企业运营的效率,数据 ...
2024-11-17金融数学是一门充满挑战和机遇的专业,它将数学、统计学和金融学的知识有机结合,旨在培养能够运用数学和统计方法解决复杂金融市 ...
2024-11-16在信息时代的浪潮中,大数据已成为推动创新的重要力量。无论是在商业、医疗、金融,还是在日常生活中,大数据扮演的角色都愈发举 ...
2024-11-16随着大数据技术的迅猛发展,数据已经成为现代商业、科技乃至生活各个方面的重要资产。大数据专业的毕业生在这一变革背景下,拥有 ...
2024-11-15随着大数据技术的迅猛发展,数据已经成为现代商业、科技乃至生活各个方面的重要资产。大数据专业的毕业生在这一变革背景下,拥有 ...
2024-11-15在快速演变的数字时代,数据分析已成为多个行业的核心驱动力。无论你是刚刚踏入数据分析领域,还是寻求进一步发展的专业人士,理 ...
2024-11-15Python作为一种通用编程语言,以其简单易学、功能强大等特点,成为众多领域的核心技术驱动者。无论是初学者还是有经验的编程人员 ...
2024-11-15在当今数据驱动的世界中,数据分析已成为许多行业的基础。无论是商业决策,产品开发,还是市场策略优化,数据分析都扮演着至关重 ...
2024-11-15数据分析作为现代商业和研究领域不可或缺的一部分,吸引了越来越多的初学者。然而,自学数据分析的过程中,初学者常常会遇到许多 ...
2024-11-15在当今的数据驱动世界中,机器学习方法在数据挖掘与分析中扮演着核心角色。这些方法通过从数据中学习模式和规律来构建模型,实现 ...
2024-11-15随着数据在各个行业的重要性日益增加,数据分析师在商业和技术领域的角色变得至关重要。其核心职责之一便是通过数据可视化,将复 ...
2024-11-15数据分析师的职责不仅仅局限于解析数据和得出结论,更在于将这些复杂的信息转换为清晰、易懂且具有影响力的沟通。良好的沟通能力 ...
2024-11-15数字化转型是企业提升竞争力和实现可持续发展的关键路径。面对快速变化的市场环境,以及技术的飞速发展,企业在数字化转型过程中 ...
2024-11-15CDA数据分析师认证:CDA认证分为三个等级:Level Ⅰ、Level Ⅱ和Level Ⅲ,每个等级的报考条件如下: Le ...
2024-11-14自学数据分析可能是一条充满挑战却又令人兴奋的道路。随着数据在现代社会中的重要性日益增长,掌握数据分析技能不仅能提升你的就 ...
2024-11-14数据分析相关职业选择 数据分析领域正在蓬勃发展,为各种专业背景的人才提供了丰富的职业机会。从初学者到有经验的专家,每个人 ...
2024-11-14数据挖掘与分析在金融行业的使用 在当今快速发展的金融行业中,数据挖掘与分析的应用愈发重要,成为驱动行业变革和提升竞争力的 ...
2024-11-14学习数据挖掘需要掌握哪些技能 数据挖掘是一个不断发展的领域,它结合了统计学、计算机科学和领域专业知识,旨在从数据中提取有 ...
2024-11-14统计学作为一门基于数据的学科,其广泛的应用领域和多样的职业选择,使得毕业生拥有丰厚的就业前景。无论是在政府还是企业,统计 ...
2024-11-14