数据分析技术:相关关系分析;说“你好我也好”,这不足够
基础准备
数据的相关性分析是生活中运用十分广泛的一种数据分析方法。例如,在某个妇科产品的广告里,用“你好我也好”来表达用了产品就能健康的相关关系;在朋友交往中,患难见真情帮助人们知道哪个才是真正亲密的朋友;过年走亲戚,用代际血缘的远近来描述不同亲戚之间的亲密程度。在数据分析领域,对于不同变量之间相关关系的衡量指标也是不同的。
实际的生产生活中,很多事物之间有着千丝万缕的联系,这些联系有的紧密,有的稀松。表达互相联系事物的依存情况有两种方式:相关关系和回归关系(函数关系)。回归关系是一种确定关系,通过一个或几个事物的取值能够得到另一个事物的取值,这是通过回归方程(函数方程)实现的。相关关系不是确定关系,当一个或几个事物的取值发生变化时,与它(它们)有联系的事物的取值也会发生变化,但变化值不是确定的数值。基于这些区别,在数据分析中,一般先做相关关系的分析,待相关关系清楚以后,再进一步确定不同变量之间的函数关系(回归关系)。
相关关系分类
相关关系从不同的角度有不同的分类方式。首先是按照相关关系强度划分:完全相关,弱相关和不相关。也能按照相关关系的方向分类:正相关和负相关。以上两种是最常用的分类方式。除此之外,还有两种分类方式,需要重点介绍。
按照相关关系形态划分,可以分为线性相关和非线性相关。当一个变量的值发生变化时,另外一个变量也发生大致相同的变化。在直角坐标系里,两个变量的观测值的分布大致在一条直线上,那么这两个变量之间的相关关系是线性关系;如果在直角指标系内,两个变量的观测值分布是一条曲线,那么它们之间的相关关系是非线性相关。
还有一种相关关系的划分原则是按照变量的个数划分,可以分为单相关,复相关和偏相关。单相关是两个变量之间的关系,这两个变量一个是因变量,一个是自变量。两个变量的相关关系分析也被称为二元变量相关分析。复相关是指三个或三个以上的变量之间的关系,即一个因变量对两个或两个以上自变量的相关关系。偏相关综合了单相关和复相关的特点,当一个变量与多个变量相关,但是只关心其中一个因变量与自变量的关系,需要屏蔽其他因变量对自变量的影响,这样的相关关系就叫做偏相关。
相关分析
相关分析是将变量之间相关关系进行量化处理的过程,通过计算变量间的相关系数,对两个或两个以上变量之间两两相关的强度进行量化描述。量化描述的结果就是各种不同的相关系数。
二元变量相关系数
二元变量的相关分析计算得到的是两个变量之间的相关系数。具体而言,两个定距和定比变量间的相关性用Pearson(皮尔逊)相关系数来判定,这是参数检验的方法;两个定序或定类变量间的相关性用Spearman等级相关系数和Kendall’s tau-b等级相关系数来判定,这两种方法属于非参数检验。
Pearson简单相关系数
皮尔逊简单相关,也称积差相关。是以英国统计学家皮尔逊的名字命名的计算线性相关的方法,用于对定距或定比变量的相关性探索。皮尔逊相关系数的计算公式:
使用条件:
两个变量都是由测量获得的连续型数据,即等距或等比数据。
两个变量的总体都呈正态分布或接近正态分布,,至少是单峰对称分布,当然样本并不一定要正态。
必须是成对的数据,并且每对数据之间是相互独立的。
两个变量之间呈线性关系,一般用描绘散点图的方式来观察。
Spearman等级相关系数
Spearman相关系数是由英国统计学家Spearman在Pearson相关的基础上剔除的等级相关系数的计算方法,用于对定类或定序变量的相关性检验,可以看作是Pearson相关系数的非参数检验,因为它依据的是数据的秩而非数据的实际值。Spearman相关系数的取值范围也是在-1到+1之间,绝对值越大相关性越强,正负号表示相关的方向。Spearman相关系数计算公式:
Spearman等级相关系数的特点:
如果两变量正相关较强,则它们秩变化同步,D值较小,等级相关系数趋于1;
如果两变量负相关较强,则它们秩变化相反,D值较大,等级相关系数趋于-1;
如果两变量相关性弱,它们秩变化互不影响,D值趋于中间值,等级相关系数趋于0;
Kendall’s tau-b等级相关系数
和Spearman相关系数一样,Kendall’stau-b等级相关系数也是用于对定序变量的相关程度的度量,也属于非参数检验的范畴。它利用变量秩数据来计算一致对数目U和非一致对数目V。当两个变量具有较强的正相关关系时,一致对数目U较大,非一致对数目V较小;当两个变量具有较强的负相关关系时,一致对数目U较小,非一致对数目V较大;当两个变量相关性较弱时,一致对数目U和非一致对数目V大致相等。Kendalltau-b相关系数定义为:
Kendall tau-b相关系数具有如下特点:
如果两变量正相关性强,秩变化同步,则U应该较大,V应该较小,趋于1;
如果两变量负相关性强,秩变化相反,则U应该较小,V应该较大,趋于-1;
如果相关关系弱,则U,V大致相等,趋于0;
偏相关分析系数
在实际生活中,一个事物的变化往往会受到多个事物的影响,而非完全的二元相关关系,因此这就使得二元变量相关系数不能真真反映两个变量间的线性相关程度。那么当两个变量的取值受到其它变量影响时,可以利用偏相关分析对其它变量进行控制,以输出控制其它变量影响后的相关系数,这就是偏相关分析过程。
偏相关分析就是在分析两个变量之间的线性相关关系时控制可能对其产生影响的变量,以便于使分析结果更准确可靠。偏相关分析也称为净相关分析,分析依据是偏相关系数。当有1个控制变量时,偏相关系数称为一阶偏相关;当有两个控制变量时,偏相关系数称为二阶偏相关;当控制变量为0个时,偏相关系数称为零阶偏相关,也就是Pearson简单相关系数。
偏相关分析的零假设为:两事物的偏相关系数与零无显著差异。假设分析中有3个变量x,y,z,在分析x与y的相关性时需要控制变量z,那么x,y之间的一阶偏相关系数计算公式为:
其中,r是相应的偏相关系数,n是样本数,k是控制变量的数目,n-k-2是自由度。
距离相关分析
显示生活中,事物之间的关系往往错综复杂,设计的变量很多,且它们代表的信息也非常繁杂,我们通过观察无法厘清这些变量及其观测值之间的内在关系,为了判别错综复杂的变量及其观测值之间是否具有相似性,是否属于同一类别,通常采用更为复杂的分析手段,距离相关分析。
距离相关分析用于对不同个案间或同一变量的不同观测值之间进行相似性或不相似性的测量。距离相关分析的结果可为进一步的因子分析,聚类分析和多维尺度分析等提供信息,以帮助了解复杂数据的内在结构,为进一步分析打下基础,因此距离相关分析通常不单独使用,所以其分析结果不会给出显著性值,而只是给出各个案或各观测值之间的距离大小,再由研究者自行判断其相似或不相似程度。
距离相关分析根据统计量的不同,可分为两种情况:
非相似性测量:计算个案或变量值之间的距离。其数值越大,表示相似性程度越弱。
相似性测量:计算个案或变量值之间的Pearson相关系数或Cosine相关,取值范围为-1~+1,其数值越大,表示相似程度越高。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“最近复购率一直在下降,我们的营销力度不小啊,为什么用户还是走了?” “是不是广告投放的用户质量不高?还是我们的产品问题 ...
2025-02-21以下文章来源于数有道 ,作者数据星爷 SQL查询是数据分析工作的基础,也是CDA数据分析师一级的核心考点,人工智能时代,AI能为 ...
2025-02-19在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-18当数据开始说谎:那些年我们交过的学费 你有没有经历过这样的场景?熬了三个通宵做的数据分析报告,在会议上被老板一句"这数据靠 ...
2025-02-17数据分析作为一门跨学科领域,融合了统计学、编程、业务理解和可视化技术。无论是初学者还是有一定经验的从业者,系统化的学习路 ...
2025-02-17挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-17近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的, ...
2025-02-14一秒精通 Deepseek,不用找教程,不用买资料,更不用报一堆垃圾课程,所有这么去做的,都是舍近求远,因为你忽略了 deepseek 的 ...
2025-02-12自学 Python 的关键在于高效规划 + 实践驱动。以下是一份适合零基础快速入门的自学路径,结合资源推荐和实用技巧: 一、快速入 ...
2025-02-12“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩 ...
2025-02-08活动介绍 为了助力大家在数据分析领域不断精进技能,我们特别举办本期打卡活动。在这里,你可以充分利用碎片化时间在线学习,让 ...
2025-02-071、闺女,醒醒,媒人把相亲的带来了。 我。。。。。。。 2、前年春节相亲相了40个, 去年春节相亲50个, 祖宗,今年你想相多少个 ...
2025-02-06在数据科学的广阔领域中,统计分析与数据挖掘占据了重要位置。尽管它们常常被视为有关联的领域,但两者在理论基础、目标、方法及 ...
2025-02-05在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-02-05当我们只有非常少量的已标记数据,同时有大量未标记数据点时,可以使用半监督学习算法来处理。在sklearn中,基于图算法的半监督 ...
2025-02-05考虑一种棘手的情况:训练数据中大部分样本没有标签。此时,我们可以考虑使用半监督学习方法来处理。半监督学习能够利用这些额 ...
2025-02-04一、数学函数 1、取整 =INT(数字) 2、求余数 =MOD(除数,被除数) 3、四舍五入 =ROUND(数字,保留小数位数) 4、取绝对值 =AB ...
2025-02-03作者:CDA持证人 余治国 一般各平台出薪资报告,都会哀嚎遍野。举个例子,去年某招聘平台发布《中国女性职场现状调查报告》, ...
2025-02-02真正的数据分析大神是什么样的呢?有人认为他们能轻松驾驭各种分析工具,能够从海量数据中找到潜在关联,或者一眼识别报告中的数 ...
2025-02-01现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31