典型相关VS潜变量相关_数据分析_大数据-CDA数据分析师官网

热线电话：13121318867

典型相关VS潜变量相关_数据分析_大数据

2014-09-09

典型相关VS潜变量相关_数据分析_大数据

关于数据分析中的典型相关和潜变量相关，相信有许多人有各种各样的问题，这里谈谈一些我"数据分析师"的理解。前段时间，看到这样一个案例。案例要求衡量学生的文科成绩与理科成绩之间的相关性。文科成绩包括语文、政治、历史，理科成绩包括数学、物理和化学。那么这道题该怎么做？面对多元相关分析，你"数据分析师"可能会想到两种方法：一种是采用典型相关分析，计算这两组变量间的典型相关系数；另一种是采用结构方程中的潜变量相关，将文科和理科看成是潜变量，将语文、政治、历史看成是文科的测量变量，数学、物理、化学看成是理科的测量变量，然后计算两个潜变量间的相关系数。从理论上看貌似这两种方法都可以，但是计算的结果却可能相差甚远。

       典型相关分析的基本思想是采用类似主成分分析的方法，把多变量与多变量之间的相关转化为两个变量之间相关。首先在每组变量内部找出具有最大相关性的一个线性变量组合，然后再在每组变量内找出第二对线性组合，使其本身具有最大的相关性，并分别与第一对线性组合不相关。如此下去，直到两组变量内各变量之间的相关性被提取完毕为止。有了这些最大相关的线性组合，则讨论两组变量之间的相关，就转化为研究这些线性组合的最大相关，从而减少了研究变量的个数。
       结构方程中的潜变量相关，常用的计算潜变量的方法是主成份。"数据分析师"在实际计算中，如果第一主成份特别大，也就是说只有一个主成份的时候，潜变量相关系数等于第一主成份间的相关系数。如果各个显变量的提取的主成份不只一个，结果就略有不同了。
       其实，典型相关分析和潜变量相关的不同在于，一个依据相关系数最大提取典型变量，一个依据方差最大提取主成分。所以这个两个计算出来的相关系数会有明显的差异。更夸张的是，有些时候这种差异会很大的！很大，明白吗？甚至一个是显著正相关（-0.5以上），一个是显著负相关（-0.5以上）。这个现象不是胡扯，我采用模拟数据时曾经确实出现过。
       典型变量是各指标的线性组合，在这个线性组合中，各个变量的系数可能是正可能是否，加上提取的时候使得相关系数最大，所以典型相关分析的结果往往大于0。而"数据分析师"在计算潜变量相关时，先提取主成分，然后计算主成分之间的相关，所以这个潜变量的相关系数取值范围应该是在【-1，1】。
       需要说明的是，当我们实际面临上述的问题时，可能既不采用典型相关分析，也不采用潜变量相关，而是分别计算语文+政治+历史的总分与数学+物理+化学的总分，用这两个总分代表文科和理科的成绩，直接计算这两个总分间的相关系数。因为这几个成绩在量纲、数量级上都相同，直接相加不仅具有实际意义，而且容易理解，得出的结果也能够更好地解释和反映实际问题。
       最后罗嗦一句，算是对数据分析人员"数据分析师"的忠告：当我们面对一个实际问题时，不应该一味地追求分析方法的高级和复杂，而更应该力求用最简单最合适的方法解决问题。或许，悬乎的方法可以忽悠同事、忽悠领导，甚至忽悠自己，但记住市场相信真像，它绝对不会被任何人忽悠。