降维是机器学习中很有意思的一部分,很多时候它是无监督的,能够更好地刻画数据,对模型效果提升也有帮助,同时在数据可视化中也有着举足轻重的作用。
一说到降维,大家第一反应总是PCA,基本上每一本讲机器学习的书都会提到PCA,而除此之外其实还有很多很有意思的降维算法,其中就包括isomap,以及isomap中用到的MDS。
ISOMAP是‘流形学习’中的一个经典算法,流形学习贡献了很多降维算法,其中一些与很多机器学习算法也有结合,但上学的时候还看了蛮多的机器学习的书,从来没听说过流形学习的概念,还是在最新的周志华版的《机器学习》里才看到,很有意思,记录分享一下。
流形学习
流形学习应该算是个大课题了,它的基本思想就是在高维空间中发现低维结构。比如这个图:
这些点都处于一个三维空间里,但我们人一看就知道它像一块卷起来的布,图中圈出来的两个点更合理的距离是A中蓝色实线标注的距离,而不是两个点之间的欧式距离(A中蓝色虚线)。
此时如果你要用PCA降维的话,它 根本无法发现这样卷曲的结构 (因为PCA是典型的 线性降维 ,而图示的结构显然是非线性的),最后的降维结果就会一团乱麻,没法很好的反映点之间的关系。而流形学习在这样的场景就会有很好的效果。
我对流形学习本身也不太熟悉,还是直接说算法吧。
ISOMAP
在降维算法中,一种方式是提供点的坐标进行降维,如PCA;另一种方式是提供点之间的距离矩阵,ISOMAP中用到的MDS(Multidimensional Scaling)就是这样。
在计算距离的时候,最简单的方式自然是计算坐标之间的欧氏距离,但ISOMAP对此进行了改进,就像上面图示一样:
1.通过kNN(k-Nearest Neighbor)找到点的k个最近邻,将它们连接起来构造一张图。
2. 通过计算同中各点之间的最短路径,作为点之间的距离 i j
放入距离矩阵 D
3. 将 D 传给经典的MDS算法,得到降维后的结果。
ISOMAP本身的 核心就在构造点之间的距离 ,初看时不由得为其拍案叫绝,类似的思想在很多降维算法中都能看到,比如能将超高维数据进行降维可视化的t-SNE。
ISOMAP效果,可以看到选取的最短路径比较好地还原了期望的蓝色实线,用这个数据进行降维会使流形得以保持:
ISOMAP算法步骤可谓清晰明了,所以本文主要着重讲它中间用到的MDS算法,也是很有意思的。
经典MDS(Multidimensional Scaling)
如上文所述,MDS接收的输入是一个距离矩阵 D
,我们把一些点画在坐标系里:
如果只告诉一个人这些点之间的距离(假设是欧氏距离),他会丢失那些信息呢?
a. 我们对点做平移,点之间的距离是不变的。
b. 我们对点做旋转、翻转,点之间的距离是不变的。
所以想要从 D
还原到原始数据 是不可能的,因为只给了距离信息之后本身就丢掉了很多东西,不过不必担心,即使这样我们也可以对数据进行降维。
我们不妨假设:
是一个 n × 的矩阵,n为样本数,q是原始的维度
计算一个很重要的矩阵 B :
= ( n × n ) = ( ) ( ) ( 是 一 组 正 交 基 )
可以看到我们通过 对 做正交变换并不会影响 B 的值,而 正交变换刚好就是对数据做旋转、翻转操作的 。
所以如果我们想通过 B 反算出 ,肯定是没法得到真正的 , 而是它的任意一种正交变换后的结果。
B中每个元素的值为:
b i j = ∑ k = 1 x i k x j k
计算距离矩阵 D ,其中每个元素值为:
= ( x i ? x j ) 2 = ∑ k = 1 ( x i k ? x j k ) 2 = ∑ k = 1 x 2 i k + x 2 j k ? 2 x i k x j k = b i i + b j j ? 2 b i j \tag{dij_square}\label{dij_square}
这时候我们有的只有 D ,如果能通过 D 计算出 B ,再由 B 计算出 ,不就达到效果了吗。
所以思路是:从D->B->X
此时我们要对X加一些限制,前面说过我们平移所有点是不会对距离矩阵造成影响的,所以我们就把 数据的中心点平移到原点 ,对X做如下限制(去中心化):
∑ i = 1 n x i k = 0 , o r a l l k = 1..
所以有
∑ j = 1 n b i j = ∑ j = 1 n ∑ k = 1 x i k x j k = ∑ k = 1 x i k ∑ j = 1 n x j k = 0
类似的
∑ i = 1 n b i j = ∑ i = 1 n ∑ k = 1 x i k x j k = ∑ k = 1 x j k ( ∑ i = 1 n x i k ) = 0
可以看到即 B 的任意行(row)之和以及任意列(column)之和都为0了。
设T为 B
的trace,则有:
∑ i = 1 n 2 i j = ∑ i = 1 n b i i + b j j ? 2 b i j = + n b j j + 0
∑ j = 1 n 2 i j = ∑ j = 1 n b i i + b j j ? 2 b i j = n b i i + + 0
∑ i = 1 n ∑ j = 1 n 2 i j = 2 n
得到B:根据公式 我们有:
b i j = ? 1 2 ( 2 i j ? b i i ? b j j )
而(根据前面算 ∑ n i = 1 2 i j , ∑ n j = 1 2 i j 和 ∑ n i = 1 ∑ n j = 1 2 i j 的公式可以得到)
b i i b j j 2 n = + 1 n ∑ j = 1 n 2 i j = + 1 n ∑ i = 1 n 2 i j = 1 n 2 ∑ i = 1 n ∑ j = 1 n 2 i j
所以
= ? 1 2 ( 2 i j ? b i i ? b j j ) = ? 1 2 ( 2 i j ? 1 n ∑ j = 1 n 2 i j ? 1 n ∑ i = 1 n 2 i j + 2 n ) = ? 1 2 ( 2 i j ? 1 n ∑ j = 1 n 2 i j ? 1 n ∑ i = 1 n 2 i j + 1 n 2 ∑ i = 1 n ∑ j = 1 n 2 i j ) = ? 1 2 ( 2 i j ? 2 i ? ? 2 ? j + 2 ? ? )
可以看到 2 i ? 是 D 2 行均值; 2 ? j 是列均值; 2 ? ? 是矩阵的均值。
这样我们就可以通过矩阵 D
得到矩阵 B 了
因为B是对称的矩阵,所以可以通过特征分解得到:
B = Λ ? 1 = Λ
在最开始我们其实做了一个假设, 即 D 是由一个 n × 的数据生成的,如果事实是这样的, D 会是一个对称实矩阵,此时得到的 B 刚好会有 个非0的特征值,也就是说 B 的秩等于 ,如果我们想还原 ,就选择前 个特征值和特征向量;如果想要达到降维的目的,就选择制定的 p 个( p < )。
此时我们选择前 p
个特征值和特征向量,(这一步和PCA里面很类似):
B ? = ? Λ ? ? ? ( n × p ) , Λ ? ( p × p )
所以有( Λ 是特征值组成的对角矩阵):
B ? = ? Λ ? 1 2 ? Λ ? 1 2 ? = ? ?
因此
? = ? Λ ? 1 2
如果选择 p = 的话,此时得到的 ? 就是原数据去中心化并做了某种正交变换后的值了。
MDS的例子
举个例子:拿美国一些大城市之间的距离作为矩阵传进去,简单写一写代码:
import numpy as np
import matplotlib.pyplot as plt
def mds(D,q):
D = np.asarray(D)
DSquare = D**2
totalMean = np.mean(DSquare)
columnMean = np.mean(DSquare, axis = 0)
rowMean = np.mean(DSquare, axis = 1)
B = np.zeros(DSquare.shape)
for i in range(B.shape[0]):
for j in range(B.shape[1]):
B[i][j] = -0.5*(DSquare[i][j] - rowMean[i] - columnMean[j]+totalMean)
eigVal,eigVec = np.linalg.eig(B)
X = np.dot(eigVec[:,:q],np.sqrt(np.diag(eigVal[:q])))
return X
D = [[0,587,1212,701,1936,604,748,2139,2182,543],
[587,0,920,940,1745,1188,713,1858,1737,597],
[1212,920,0,879,831,1726,1631,949,1021,1494],
[701,940,879,0,1374,968,1420,1645,1891,1220],
[1936,1745,831,1374,0,2339,2451,347,959,2300],
[604,1188,1726,968,2339,0,1092,2594,2734,923],
[748,713,1631,1420,2451,1092,0,2571,2408,205],
[2139,1858,949,1645,347,2594,2571,0,678,2442],
[2182,1737,1021,1891,959,2734,2408,678,0,2329],
[543,597,1494,1220,2300,923,205,2442,2329,0]]
label = ['Atlanta','Chicago','Denver','Houston','Los Angeles','Miami','New York','San Francisco','Seattle','Washington, DC']
X = mds(D,2)
plt.plot(X[:,0],X[:,1],'o')
for i in range(X.shape[0]):
plt.text(X[i,0]+25,X[i,1]-15,label[i])
plt.show()
最后画出来的图中,各个城市的位置和真实世界中的相对位置都差不多:
注意,这个例子中其实也有‘流形’在里面,因为我们的地球其实是一个三维,而城市间距离刻画的是在球面上的距离,所以最后如果你去看求出来的特征值,并不像前面说的那样只有q个非0的值。数据分析师培训
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16