数据分析技术:相关关系分析;说“你好我也好”,这不足够
基础准备
数据的相关性分析是生活中运用十分广泛的一种数据分析方法。例如,在某个妇科产品的广告里,用“你好我也好”来表达用了产品就能健康的相关关系;在朋友交往中,患难见真情帮助人们知道哪个才是真正亲密的朋友;过年走亲戚,用代际血缘的远近来描述不同亲戚之间的亲密程度。在数据分析领域,对于不同变量之间相关关系的衡量指标也是不同的。
实际的生产生活中,很多事物之间有着千丝万缕的联系,这些联系有的紧密,有的稀松。表达互相联系事物的依存情况有两种方式:相关关系和回归关系(函数关系)。回归关系是一种确定关系,通过一个或几个事物的取值能够得到另一个事物的取值,这是通过回归方程(函数方程)实现的。相关关系不是确定关系,当一个或几个事物的取值发生变化时,与它(它们)有联系的事物的取值也会发生变化,但变化值不是确定的数值。基于这些区别,在数据分析中,一般先做相关关系的分析,待相关关系清楚以后,再进一步确定不同变量之间的函数关系(回归关系)。
相关关系分类
相关关系从不同的角度有不同的分类方式。首先是按照相关关系强度划分:完全相关,弱相关和不相关。也能按照相关关系的方向分类:正相关和负相关。以上两种是最常用的分类方式。除此之外,还有两种分类方式,需要重点介绍。
按照相关关系形态划分,可以分为线性相关和非线性相关。当一个变量的值发生变化时,另外一个变量也发生大致相同的变化。在直角坐标系里,两个变量的观测值的分布大致在一条直线上,那么这两个变量之间的相关关系是线性关系;如果在直角指标系内,两个变量的观测值分布是一条曲线,那么它们之间的相关关系是非线性相关。
还有一种相关关系的划分原则是按照变量的个数划分,可以分为单相关,复相关和偏相关。单相关是两个变量之间的关系,这两个变量一个是因变量,一个是自变量。两个变量的相关关系分析也被称为二元变量相关分析。复相关是指三个或三个以上的变量之间的关系,即一个因变量对两个或两个以上自变量的相关关系。偏相关综合了单相关和复相关的特点,当一个变量与多个变量相关,但是只关心其中一个因变量与自变量的关系,需要屏蔽其他因变量对自变量的影响,这样的相关关系就叫做偏相关。
相关分析
相关分析是将变量之间相关关系进行量化处理的过程,通过计算变量间的相关系数,对两个或两个以上变量之间两两相关的强度进行量化描述。量化描述的结果就是各种不同的相关系数。
二元变量相关系数
二元变量的相关分析计算得到的是两个变量之间的相关系数。具体而言,两个定距和定比变量间的相关性用Pearson(皮尔逊)相关系数来判定,这是参数检验的方法;两个定序或定类变量间的相关性用Spearman等级相关系数和Kendall’s tau-b等级相关系数来判定,这两种方法属于非参数检验。
Pearson简单相关系数
皮尔逊简单相关,也称积差相关。是以英国统计学家皮尔逊的名字命名的计算线性相关的方法,用于对定距或定比变量的相关性探索。皮尔逊相关系数的计算公式:
使用条件:
两个变量都是由测量获得的连续型数据,即等距或等比数据。
两个变量的总体都呈正态分布或接近正态分布,,至少是单峰对称分布,当然样本并不一定要正态。
必须是成对的数据,并且每对数据之间是相互独立的。
两个变量之间呈线性关系,一般用描绘散点图的方式来观察。
Spearman等级相关系数
Spearman相关系数是由英国统计学家Spearman在Pearson相关的基础上剔除的等级相关系数的计算方法,用于对定类或定序变量的相关性检验,可以看作是Pearson相关系数的非参数检验,因为它依据的是数据的秩而非数据的实际值。Spearman相关系数的取值范围也是在-1到+1之间,绝对值越大相关性越强,正负号表示相关的方向。Spearman相关系数计算公式:
Spearman等级相关系数的特点:
如果两变量正相关较强,则它们秩变化同步,D值较小,等级相关系数趋于1;
如果两变量负相关较强,则它们秩变化相反,D值较大,等级相关系数趋于-1;
如果两变量相关性弱,它们秩变化互不影响,D值趋于中间值,等级相关系数趋于0;
Kendall’s tau-b等级相关系数
和Spearman相关系数一样,Kendall’stau-b等级相关系数也是用于对定序变量的相关程度的度量,也属于非参数检验的范畴。它利用变量秩数据来计算一致对数目U和非一致对数目V。当两个变量具有较强的正相关关系时,一致对数目U较大,非一致对数目V较小;当两个变量具有较强的负相关关系时,一致对数目U较小,非一致对数目V较大;当两个变量相关性较弱时,一致对数目U和非一致对数目V大致相等。Kendalltau-b相关系数定义为:
Kendall tau-b相关系数具有如下特点:
如果两变量正相关性强,秩变化同步,则U应该较大,V应该较小,趋于1;
如果两变量负相关性强,秩变化相反,则U应该较小,V应该较大,趋于-1;
如果相关关系弱,则U,V大致相等,趋于0;
偏相关分析系数
在实际生活中,一个事物的变化往往会受到多个事物的影响,而非完全的二元相关关系,因此这就使得二元变量相关系数不能真真反映两个变量间的线性相关程度。那么当两个变量的取值受到其它变量影响时,可以利用偏相关分析对其它变量进行控制,以输出控制其它变量影响后的相关系数,这就是偏相关分析过程。
偏相关分析就是在分析两个变量之间的线性相关关系时控制可能对其产生影响的变量,以便于使分析结果更准确可靠。偏相关分析也称为净相关分析,分析依据是偏相关系数。当有1个控制变量时,偏相关系数称为一阶偏相关;当有两个控制变量时,偏相关系数称为二阶偏相关;当控制变量为0个时,偏相关系数称为零阶偏相关,也就是Pearson简单相关系数。
偏相关分析的零假设为:两事物的偏相关系数与零无显著差异。假设分析中有3个变量x,y,z,在分析x与y的相关性时需要控制变量z,那么x,y之间的一阶偏相关系数计算公式为:
其中,r是相应的偏相关系数,n是样本数,k是控制变量的数目,n-k-2是自由度。
距离相关分析
显示生活中,事物之间的关系往往错综复杂,设计的变量很多,且它们代表的信息也非常繁杂,我们通过观察无法厘清这些变量及其观测值之间的内在关系,为了判别错综复杂的变量及其观测值之间是否具有相似性,是否属于同一类别,通常采用更为复杂的分析手段,距离相关分析。
距离相关分析用于对不同个案间或同一变量的不同观测值之间进行相似性或不相似性的测量。距离相关分析的结果可为进一步的因子分析,聚类分析和多维尺度分析等提供信息,以帮助了解复杂数据的内在结构,为进一步分析打下基础,因此距离相关分析通常不单独使用,所以其分析结果不会给出显著性值,而只是给出各个案或各观测值之间的距离大小,再由研究者自行判断其相似或不相似程度。
距离相关分析根据统计量的不同,可分为两种情况:
非相似性测量:计算个案或变量值之间的距离。其数值越大,表示相似性程度越弱。
相似性测量:计算个案或变量值之间的Pearson相关系数或Cosine相关,取值范围为-1~+1,其数值越大,表示相似程度越高。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“用户旅程分析”概念 用户旅程图又叫做用户体验地图,它是用于描述用户在与产品或服务互动的过程中所经历的各个阶段、触点和情 ...
2025-01-22在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-22在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06在现代企业中,数据分析师扮演着至关重要的角色。每天都有大量数据涌入,从社交媒体到交易平台,数据以空前的速度和规模生成。面 ...
2025-01-06在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-03在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-03在数据分析的江湖里,有两个阵营总是争论不休。一派信奉“大即是美”,认为数据越多越好;另一派坚守“小而精”,力挺质量胜于规 ...
2025-01-02数据分析是一个复杂且多维度的过程,从数据收集到分析结果应用,每一步都是对信息的提炼与升华。可视化分析结果,以图表的形式展 ...
2025-01-02在当今的数字化时代,数据分析师扮演着一个至关重要的角色。他们如同现代企业的“解密专家”,通过解析数据为企业提供决策支持。 ...
2025-01-02数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪 ...
2024-12-31数据分析,听起来好像是技术大咖的专属技能,但其实是一项人人都能学会的职场硬核能力!今天,我们来聊聊数据分析的核心流程,拆 ...
2024-12-31