数据分析技术:聚类分析;可怕的不是阶层固化,而是因此放弃了努力
划分类别、等级和阶层的行为自发或不自发的存在于社会生活的各个角落。例如,可以根据家庭年收入情况将所有家庭划分为低收入到高收入的不同阶层;根据人们的工作性质,也可以将人们划分不同阶层;根据出生地和生活习惯,同样可以对人群进行分类。对事物分门别类依据的是不同事物身上共同的标签。
分阶层、分等级、分类别从来都不是一个能够被简单定义好坏的行为。中华几千年的文明历史,从奴隶社会、封建社会,再跨越进入社会主义社会的初级阶段,没有那种社会形态只存在一种阶层,一种人群。在不同的阶层和人群间,也必然存在协作、欺压甚至剥削等不同的相处模式,这是由不同群体身上的标签决定的,这是分类残酷的一面。对于数据分析者和商业运营者来说,不同类别事物身上的特有标签是他们需要充分利用的信息,例如,年轻人喜欢闹腾消遣娱乐方式;女性消费者是化妆品的主要购买和使用者;老年社会的来临,意味着养老机构存在极大的需求缺口等等,这是分类信息带给商业运营者制定下一步发展策略的方向。
上面列举的例子都是通过一个指标、特征或标签就对所有的事物进行分类,这样的分类情况是非常简单和明确的。然而,如果分类需要考虑的标签是多个,事物在这些标签上的表现有好有坏,那么就需要用到聚类分析来达到我们的需求了。
聚类分析原理
在介绍聚类分析原理前,需要强调一个事实。同其它统计分析方法不同,聚类分析是一种探索性的分析方法,也就是说不用也没有办法对聚类分析的结果进行“是否正确”的检验,只能依据聚类结果在具体问题中的“有用性”来判断聚类效果的好坏,没有正确或错误之分。
聚类分析的实质就是按照事物之间距离的远近进行分类,其分析结果使同类别事物的距离(差异)尽可能小,不同类别的距离(差异)尽可能大。根据聚类分析的逻辑,以下几个问题是需要大家清楚理解的。
距离的定义
事物身上的指标数据(标签数据)类型可以分成两类:分类数据(定类或定序)以及连续型数据(定距和定比),这两类数据在聚类分析时,常用的距离测量方式是完全不同的,连续型数据一般使用欧氏平方距离,而分类数据使用的则是卡方相关性。对于连续型数据的欧式距离或欧式平方距离,可以用下面的公式表示,是非常好理解的:
基于不同数据类型,定义距离的方式不同,因此传统聚类方法只能使用单一种类的指标数据进行聚类分析,如果数据中同时含有两类数据,那么只能选取其中一种进行分析。令人高兴的是,随着聚类分析方法的发展,一些智能聚类方法已经可以很好的同时分析这两种变量,两步聚类就是最常用的只能聚类方法。
通过上面介绍的欧式距离公式,我们会发现一个很明显的缺陷,那就是不同指标数据的单位或数量级相差很大,那么数量级大的指标数据会对欧式距离产生更大的影响。例如,x的数量级如果是万,而y数量级仅为十,那么y变量对欧式距离结果的影响相对于x来说就显得微不足道了。解决这个缺陷最常用的办法就是数据标准化,使得不同数量级的数据回到同一起跑线。常用的标准化方式就是把数据转化成标准化分数,当然也可以根据实际情况将不同数量级的数据变换成同一个数量级进行比较。
聚类方法
聚类分析经过多年的发展,已经逐渐形成常用的三种聚类方法:层次聚类法、K-Mean聚类法和二阶聚类法。下面对这三种聚类方法的聚类逻辑进行介绍,后面会用三篇推送具体介绍它们的原理、SPSS软件实现和生活案例应用。
层次聚类法
层次聚类法是传统的聚类方法,它首先需要根据指标数据类型确定距离的基本定义和计算方式,随后按照距离的远近,将所有的事物(个案)一步一步的归成一类。这样聚类的结果显然存在嵌套,或者说不同类别间会有层次关系,因此被称为层次聚类法。层次聚类可用一张二维空间图来表示,称为树状图。
K-均值聚类
层次聚类的分析过程是非常细致的,需要计算所有事物(个案)两两之间的距离,所以聚类的效率不高。K-均值聚类可以在一定程度上解决这个问题。K-均值聚类在聚类之前就确定好了最终的类别数和类别坐标,整个分析过程使用迭代的方式进行。通过不断的迭代把事物(个案)在不同类别之间移动,直到找到距离最短的类别,然后将该事物归于此类。整个计算过程中不需要存储基本数据,因此不会出现嵌套结果,计算速度也非常快。
二阶聚类
随着数据收集和存储设备的发展,海量数据的聚类分析已经称为迫切的需求,而上面介绍的两种聚类方法在速度和效率上还不能满足要求。首先是面对海量数据,过高的计算量会使上面两种方法不具实用价值;其次上面两种聚类方法不能处理复杂指标数据同时存在的情况,特别是连续型和离散型数据混合出现的情况。二阶聚类能够解决上面两种聚类方法不能处理的复杂情况。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析的江湖里,有两个阵营总是争论不休。一派信奉“大即是美”,认为数据越多越好;另一派坚守“小而精”,力挺质量胜于规 ...
2025-01-02数据分析是一个复杂且多维度的过程,从数据收集到分析结果应用,每一步都是对信息的提炼与升华。可视化分析结果,以图表的形式展 ...
2025-01-02在当今的数字化时代,数据分析师扮演着一个至关重要的角色。他们如同现代企业的“解密专家”,通过解析数据为企业提供决策支持。 ...
2025-01-02数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪 ...
2024-12-31数据分析,听起来好像是技术大咖的专属技能,但其实是一项人人都能学会的职场硬核能力!今天,我们来聊聊数据分析的核心流程,拆 ...
2024-12-31提到数据分析,你脑海里可能会浮现出一群“数字控”抱着电脑,在海量数据里疯狂敲代码的画面。但事实是,数据分析并没有你想象的 ...
2024-12-31关于数据分析师是否会成为失业高危职业,近年来的讨论层出不穷。在这个快速变化的时代,技术进步让人既兴奋又不安。今天,我们从 ...
2024-12-30数据分析师在现代企业中扮演着关键角色,他们的工作内容不仅丰富多样,还对企业的决策和发展起着重要的作用。正如一个经验丰富的 ...
2024-12-29数据分析师的能力要求 在当今的数据主导时代,数据分析师的角色变得尤为重要。他们不仅需要具备深厚的技术背景,还需要拥有业务 ...
2024-12-29随着技术的飞速发展与行业的持续变革,不少人心中都存有疑问:到了 2025 年,数据分析师还有前途吗?给你分享一篇阿里P8大佬最近 ...
2024-12-29如何构建数据分析整体框架? 要让数据分析发挥其最大效能,建立一个清晰、完善的整体框架至关重要。今天,就让我们一同深入探讨 ...
2024-12-27AI来了,数分人也可以很省力,今天给大家介绍7个AI+数据分析工具,建议收藏。 01酷表 EXCEL 网址:https://chatexcel.com/ 这是 ...
2024-12-26一个好的数据分析模型不仅能使分析具备条理性和逻辑性,而且还更具备结构化和体系化,并保证分析结果的有效性和准确性。好的数据 ...
2024-12-26当下,AI 的发展堪称狂飙猛进。从 ChatGPT 横空出世到各种大语言模型(LLM)接连上线,似乎每个人的朋友圈都在讨论 AI 会不会“ ...
2024-12-26数据分析师这个职业已经成为了职场中的“香饽饽”,无论是互联网公司还是传统行业,都离不开数据支持。想成为一名优秀的数据分析 ...
2024-12-26在数据驱动决策成为商业常态的今天,数据分析师这一职业正迎来前所未有的机遇与挑战。很多希望转行或初入职场的人士不禁询问:数 ...
2024-12-25数据分析师,这一近年来炙手可热的职业,吸引了大量求职者的注意。凭借在大数据时代中的关键作用,数据分析师不仅需要具备处理数 ...
2024-12-25在当今数字化变革的浪潮中,数据分析师这一职业正迎来前所未有的发展机遇。回想我自己初入数据分析行业时,那种既兴奋又略显谨慎 ...
2024-12-25在当今信息爆炸的时代,数据已经像空气一样无处不在,而数据分析则是解锁这些信息宝藏的钥匙。数据分析的过程就像是一次探险,从 ...
2024-12-25在职场上,拍脑袋做决策的时代早已过去。数据分析正在成为每个职场人的核心竞争力,不仅能帮你找到问题,还能提供解决方案,提升 ...
2024-12-24