数据分析技术:数据的归纳分析
在数据分析中,除了差异性检验、关联性研究之外,基于原始数据开展的研究也是非常重要的,对原始数据的处理研究被称为数据归纳分析。
归纳分析
所谓归纳就是从个别性知识推出一般性结论的推理。其主要方法是根据一类事物的部分对象具有某种性质,推出这类事物的所有对象都具有这种性质的推理。
数据的归纳分析可以从两个维度进行。例如,SPSS的数据视图,是一个二维数据表,数据表的每一行是一个个案,每一列是一个变量,数据的归纳分析就是对行和列的抽象与归纳。对个案的归纳处理是聚类,也叫分类,它以行作为操作单元,其目标是根据个案的特点把个案划分为若干类别。对变量的归纳处理则称为降维,它以列作为操作单元,其目标是根据变量的取值特点把描述变量的众多属性压缩为具有某些特点的几个属性,从而能够更加清晰的突出个案集的本质特点。对个案和变量的归纳处理过程就是常说的聚类分析和降维分析。
聚类分析
在学习、工作和科研活动中,常常需要将数以万计的个案分成若干类,以便于操作。例如,可以把人群分为男和女,还可以把社会人群分为高收入、中等收入和低收入人群。依据某些因素,对个案分类的过程就是分类分析,也叫聚类分析,实现分类分析的主要技术:
个案分层聚类
自动分层聚类是分类分析中常见的技术。在这种聚类分析中,首先扫描个案集,把两个距离最近的个案归结为一类,形成新的个案集;然后基于新个案集,重复这个过程,直到所有个案都被归结为一个大类为止。分层聚类的最终结果是获得一个只有唯一大类的个案集。可以把分层聚类看作一棵大树,最初的未聚类个案就像散乱的树叶。当聚类完成后,所有的树叶就被大树有机地组织起来,处于不同层次上的树叶体现了树叶之间的距离关系。面向个案的分层聚类,被称为Q聚类,是分类分析中非常重要的操作。
K-Mean聚类分析
K-Mean聚类基于用户指定的聚类类别数、类别中心点,开始聚类过程。当然,如果用户预先不能提供类别中心点,也可由系统自动迭代生产。
判别分析
判别分析的过程是基于已有数据集制作分类规则的过程。基本思路是,用户已有若干已经完成分类且类别号清晰的个案,由系统借助一些因素变量和已有分类号创建判别规则,构造判别函数。然后,系统就能基于判别函数对未来的个案实现自动分类。判别分析过程实际上是系统主动探索与学习的过程,然后依据已经习得的规则,对其它个案进行判定其归属类别。在判别分析中,创建判别函数并分析判别函数的质量,是判别分析的重要任务。
降维分析
降维分析是面向变量的归纳,其目的是把数据表中的若干相关变量集合在一起,形成归一化的结论,从而减少数据表中列的数量,这样就能从变量集中抽象出公共的因素,以便获得比较有价值的研究结论。对变量的降维有两种不同技术:其一是对变量的归类,借助变量分类的技术实现降维;其二是抽取公共因子,通过抽取公共因子的方式实现同质变量的降维。降维分析的常见手段:
主成分分析
主成分分析是因子分析中的一种。其基本思路是假设在若干变量内部隐藏着能够表达这些变量语义的若干个公共因子,主成分分析的目标就是找到这些公共因子,然后利用远比变量个数少的公共因子来表达原来变量所描述的语义。主成分分析的目标是找到影响全体变量项的一个或多个主成分。
面向变量的聚类分析
针对具有众多变量的调研数据,可以借助自动分类聚类的技术,对变量进行聚类,把众多变量划分为若干小组,形成几个聚结的变量集,然后分析每个变量集的语义,形成聚结的维度。面向变量的分层聚类分析,也叫R聚类,也能解决研究问题的降维问题。
对应分析
对于调研数据来讲,综合性的结论通常与全体变量的取值有关系。但是,某些情况下,某一特定变量的取值在一定程度上直接影响着最终结果。对应分析就是找出相关的两个变量之间取值的对应关系,以便能够借助一个比较简单的因素变量,能够对最终结果快速做出判定。
聚类分析距离的判定
由于聚类分析(包括Q聚类和R聚类)是以元素(个案或变量)之间的距离作为是否聚合的判定依据的,所以在聚类分析中,对元素间距离的判定就显得非常重要。对于元素间距离的判定,主要包括两个方面的内容:
个案(变量)之间距离的测定;
个案团(变量团)之间距离的测定;
个案(变量)之间距离的测定
由于聚类分析中的每个个案(或变量)都是包含着多个属性取值的多维结构体,可以看做是多维空间中的一个结点。对于已经明确了多维坐标值的两个结点,如何来衡量它们之间的距离呢?
定距变量之间距离的度量
1、欧式距离
欧式距离(Euclidean distance)以坐标点之间的直线距离作为其结果,在三维坐标系下,其计算公式为:
2、平方欧式距离
平方欧式距离,即欧式距离的平方,其公式为:
3、余弦距离
余弦距离是两个结点夹角的余弦值,代表结点之间的距离。其计算公式为:
4、皮尔逊相关系数
5、切比雪夫距离
切比雪夫(Chebyhev)距离是用结点中的最大差值的绝对值作为两个元祖之间的距离。
6、块距离
块距离以两个结点中所有对应数据的差值的绝对值之和来表示两个结点之间的距离。
7、明可夫斯基距离
明可夫斯基距离是对欧式距离的改进,其公式是
当P=1时,此公式退化为块距离公式,当P=2时,此公式退化为欧式距离公式。
8、自定义“设定距离”公式
自定义“设定距离”公式是对明可夫斯基距离的复杂化。
当r=p时,此公式退化为明可夫斯基距离公式,当r=p=2时,此公式就是欧式距离公式。
对定序变量之间距离的度量
1、卡方距离
用卡方测量两个个案或变量在总频数分布期望值方面的独立性,它以卡方值的平方根充当距离值,是一种基于频数的距离计算方法。
2、Φ方测量
测量两个个案或变量在总聘书分布期望值方面的独立性,它以Φ统计量的平方根充当元素间的距离,其实质是以卡方值的平方根除以合并频率的平方根,是对卡方距离的改进。
3、对二分变量之间距离的度量
对于只有两个取值的二分元素,如果要计算它们之间的距离,常常选用欧式距离或平方欧式距离。
对个案团或变量团之间距离的测定
在分层聚类过程中,随着聚类进程的进展,很多元素都包含了多个个案(变量),变成了个案团或变量团,那么应该如何确定它们之间的距离呢?
1、组间联结
计算两个团内所有个案或变量之间的距离,以所有距离的均值作为元素之间的距离。在聚类过程中,从所有尚待聚类的元素中,取元素间距离最小的两个元素进行合并。
2、组内联结
先假设待合并的两个团已经合并起来,然后计算新元素内每对个案或变量之间的距离,以所有个案对或变量对的距离的平均值作为这两个元素之间的距离。
3、最近邻元素
以两个团内部距离最近的个案或变量之间的处理作为两元素之间的距离。
4、最远邻距离
5、质心聚类法
质心聚类法是先确定每个元素的重心位置,以重心位置之间的距离作为两元素之间的距离。
6、中位数聚类法
先确定每个元素的中位数,以中位数之间的距离作为两元素之间的距离。
7、Wald方法
离差平方和法,若某两个元素合并后其内部各个个案或变量距离的离差平方和最小,则这两个元素可以合并。
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16