典型相关VS潜变量相关_数据分析_大数据
关于数据分析中的典型相关和潜变量相关,相信有许多人有各种各样的问题,这里谈谈一些我"数据分析师"的理解。前段时间,看到这样一个案例。案例要求衡量学生的文科成绩与理科成绩之间的相关性。文科成绩包括语文、政治、历史,理科成绩包括数学、物理和化学。那么这道题该怎么做?面对多元相关分析,你"数据分析师"可能会想到两种方法:一种是采用典型相关分析,计算这两组变量间的典型相关系数;另一种是采用结构方程中的潜变量相关,将文科和理科看成是潜变量,将语文、政治、历史看成是文科的测量变量,数学、物理、化学看成是理科的测量变量,然后计算两个潜变量间的相关系数。从理论上看貌似这两种方法都可以,但是计算的结果却可能相差甚远。
典型相关分析的基本思想是采用类似主成分分析的方法,把多变量与多变量之间的相关转化为两个变量之间相关。首先在每组变量内部找出具有最大相关性的一个线性变量组合,然后再在每组变量内找出第二对线性组合,使其本身具有最大的相关性,并分别与第一对线性组合不相关。如此下去,直到两组变量内各变量之间的相关性被提取完毕为止。有了这些最大相关的线性组合,则讨论两组变量之间的相关,就转化为研究这些线性组合的最大相关,从而减少了研究变量的个数。
结构方程中的潜变量相关,常用的计算潜变量的方法是主成份。"数据分析师"在实际计算中,如果第一主成份特别大,也就是说只有一个主成份的时候,潜变量相关系数等于第一主成份间的相关系数。如果各个显变量的提取的主成份不只一个,结果就略有不同了。
其实,典型相关分析和潜变量相关的不同在于,一个依据相关系数最大提取典型变量,一个依据方差最大提取主成分。所以这个两个计算出来的相关系数会有明显的差异。更夸张的是,有些时候这种差异会很大的!很大,明白吗?甚至一个是显著正相关(-0.5以上),一个是显著负相关(-0.5以上)。这个现象不是胡扯,我采用模拟数据时曾经确实出现过。
典型变量是各指标的线性组合,在这个线性组合中,各个变量的系数可能是正可能是否,加上提取的时候使得相关系数最大,所以典型相关分析的结果往往大于0。而"数据分析师"在计算潜变量相关时,先提取主成分,然后计算主成分之间的相关,所以这个潜变量的相关系数取值范围应该是在【-1,1】。
需要说明的是,当我们实际面临上述的问题时,可能既不采用典型相关分析,也不采用潜变量相关,而是分别计算语文+政治+历史的总分与数学+物理+化学的总分,用这两个总分代表文科和理科的成绩,直接计算这两个总分间的相关系数。因为这几个成绩在量纲、数量级上都相同,直接相加不仅具有实际意义,而且容易理解,得出的结果也能够更好地解释和反映实际问题。
最后罗嗦一句,算是对数据分析人员"数据分析师"的忠告:当我们面对一个实际问题时,不应该一味地追求分析方法的高级和复杂,而更应该力求用最简单最合适的方法解决问题。或许,悬乎的方法可以忽悠同事、忽悠领导,甚至忽悠自己,但记住市场相信真像,它绝对不会被任何人忽悠。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31本人基本情况: 学校及专业:厦门大学经济学院应用统计 实习经历:快手数据分析、字节数据分析、百度数据分析 Offer情况:北京 ...
2025-01-3001专家简介 徐杨老师,CDA数据科学研究院教研副总监,主要负责CDA认证项目以及机器学习/人工智能类课程的研发与授课,负责过中 ...
2025-01-29持证人简介 郭畅,CDA数据分析师二级持证人,安徽大学毕业,目前就职于徽商银行总行大数据部,两年工作经验,主要参与两项跨部 ...
2025-01-282025年刚开启,知乎上就出现了一个热帖: 2024年突然出现的经济下行,使各行各业都感觉到压力山大。有人说,大环境越来越不好了 ...
2025-01-27在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-01-26数据指标体系 “数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而 ...
2025-01-26在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-25俗话说的好“文不如表,表不如图”,图的信息传达效率很高,是数据汇报、数据展示的重要手段。好的数据展示不仅需要有图,还要选 ...
2025-01-24数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪70 ...
2025-01-24又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-23“用户旅程分析”概念 用户旅程图又叫做用户体验地图,它是用于描述用户在与产品或服务互动的过程中所经历的各个阶段、触点和情 ...
2025-01-22在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-22在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07