数据分析技术：聚类分析；可怕的不是阶层固化，而是因此放弃了努力-CDA数据分析师官网

热线电话：13121318867

数据分析技术：聚类分析；可怕的不是阶层固化，而是因此放弃了努力

2017-07-11

数据分析技术：聚类分析；可怕的不是阶层固化，而是因此放弃了努力

划分类别、等级和阶层的行为自发或不自发的存在于社会生活的各个角落。例如，可以根据家庭年收入情况将所有家庭划分为低收入到高收入的不同阶层；根据人们的工作性质，也可以将人们划分不同阶层；根据出生地和生活习惯，同样可以对人群进行分类。对事物分门别类依据的是不同事物身上共同的标签。

分阶层、分等级、分类别从来都不是一个能够被简单定义好坏的行为。中华几千年的文明历史，从奴隶社会、封建社会，再跨越进入社会主义社会的初级阶段，没有那种社会形态只存在一种阶层，一种人群。在不同的阶层和人群间，也必然存在协作、欺压甚至剥削等不同的相处模式，这是由不同群体身上的标签决定的，这是分类残酷的一面。对于数据分析者和商业运营者来说，不同类别事物身上的特有标签是他们需要充分利用的信息，例如，年轻人喜欢闹腾消遣娱乐方式；女性消费者是化妆品的主要购买和使用者；老年社会的来临，意味着养老机构存在极大的需求缺口等等，这是分类信息带给商业运营者制定下一步发展策略的方向。

上面列举的例子都是通过一个指标、特征或标签就对所有的事物进行分类，这样的分类情况是非常简单和明确的。然而，如果分类需要考虑的标签是多个，事物在这些标签上的表现有好有坏，那么就需要用到聚类分析来达到我们的需求了。

聚类分析原理

在介绍聚类分析原理前，需要强调一个事实。同其它统计分析方法不同，聚类分析是一种探索性的分析方法，也就是说不用也没有办法对聚类分析的结果进行“是否正确”的检验，只能依据聚类结果在具体问题中的“有用性”来判断聚类效果的好坏，没有正确或错误之分。

聚类分析的实质就是按照事物之间距离的远近进行分类，其分析结果使同类别事物的距离（差异）尽可能小，不同类别的距离（差异）尽可能大。根据聚类分析的逻辑，以下几个问题是需要大家清楚理解的。

距离的定义

事物身上的指标数据（标签数据）类型可以分成两类：分类数据（定类或定序）以及连续型数据（定距和定比），这两类数据在聚类分析时，常用的距离测量方式是完全不同的，连续型数据一般使用欧氏平方距离，而分类数据使用的则是卡方相关性。对于连续型数据的欧式距离或欧式平方距离，可以用下面的公式表示，是非常好理解的：

基于不同数据类型，定义距离的方式不同，因此传统聚类方法只能使用单一种类的指标数据进行聚类分析，如果数据中同时含有两类数据，那么只能选取其中一种进行分析。令人高兴的是，随着聚类分析方法的发展，一些智能聚类方法已经可以很好的同时分析这两种变量，两步聚类就是最常用的只能聚类方法。

通过上面介绍的欧式距离公式，我们会发现一个很明显的缺陷，那就是不同指标数据的单位或数量级相差很大，那么数量级大的指标数据会对欧式距离产生更大的影响。例如，x的数量级如果是万，而y数量级仅为十，那么y变量对欧式距离结果的影响相对于x来说就显得微不足道了。解决这个缺陷最常用的办法就是数据标准化，使得不同数量级的数据回到同一起跑线。常用的标准化方式就是把数据转化成标准化分数，当然也可以根据实际情况将不同数量级的数据变换成同一个数量级进行比较。

聚类方法

聚类分析经过多年的发展，已经逐渐形成常用的三种聚类方法：层次聚类法、K-Mean聚类法和二阶聚类法。下面对这三种聚类方法的聚类逻辑进行介绍，后面会用三篇推送具体介绍它们的原理、SPSS软件实现和生活案例应用。

层次聚类法

层次聚类法是传统的聚类方法，它首先需要根据指标数据类型确定距离的基本定义和计算方式，随后按照距离的远近，将所有的事物（个案）一步一步的归成一类。这样聚类的结果显然存在嵌套，或者说不同类别间会有层次关系，因此被称为层次聚类法。层次聚类可用一张二维空间图来表示，称为树状图。

K-均值聚类

层次聚类的分析过程是非常细致的，需要计算所有事物（个案）两两之间的距离，所以聚类的效率不高。K-均值聚类可以在一定程度上解决这个问题。K-均值聚类在聚类之前就确定好了最终的类别数和类别坐标，整个分析过程使用迭代的方式进行。通过不断的迭代把事物（个案）在不同类别之间移动，直到找到距离最短的类别，然后将该事物归于此类。整个计算过程中不需要存储基本数据，因此不会出现嵌套结果，计算速度也非常快。

二阶聚类

随着数据收集和存储设备的发展，海量数据的聚类分析已经称为迫切的需求，而上面介绍的两种聚类方法在速度和效率上还不能满足要求。首先是面对海量数据，过高的计算量会使上面两种方法不具实用价值；其次上面两种聚类方法不能处理复杂指标数据同时存在的情况，特别是连续型和离散型数据混合出现的情况。二阶聚类能够解决上面两种聚类方法不能处理的复杂情况。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

层次聚类数据分析数据标准化特征统计分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

数据分析技术：聚类分析；可怕的不是阶层固化，而是因此放弃了努力

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

全球第一！上交AI智能体炼成Kaggle特级大师登顶Open ...

【CDA干货】探索最优回归方程：数据背后的精准预测 ...

CDA 证书：银行招聘中的 “黄金通行证” ...

CDA 数据分析师报考条件全解析：开启数据洞察之旅 ...

【CDA干货】深入解析 SQL 中 CASE 语句条件的执行顺 ...

【CDA干货】SPSS 中计算三个变量交集的详细指南 ...

CDA 数据分析师：就业前景广阔的新兴职业 ...

【CDA干货】探秘卷积层：为何一个卷积层需要两个卷 ...

探索 CDA 数据分析师在线课程：开启数据洞察之旅 ...

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提 ...

【CDA干货】LSTM 为何会产生误差？深入剖析其背后的 ...

LLM进入拖拽时代！只靠Prompt几秒定制大模型，效率 ...

【CDA干货】探秘 z-score：数据分析中的标准化利器 ...

【CDA干货】Excel 中为不同柱形设置独立背景（按数 ...

CDA 数据分析师会被 AI 取代吗？

CDA 数据分析师证书考取全攻略 ...

人工智能在数据分析的应用场景

【CDA干货】评估模型预测为正时的准确性 ...

CDA认证：数据时代的职业通行证

金融行业的大数据变革：五大应用案例深度解析 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

数据分析技术：聚类分析；可怕的不是阶层固化，而是因此放弃了努力

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

全球第一！上交AI智能体炼成Kaggle特级大师登顶Open ...

【CDA干货】探索最优回归方程：数据背后的精准预测 ...

CDA 证书：银行招聘中的 “黄金通行证” ...

CDA 数据分析师报考条件全解析：开启数据洞察之旅 ...

【CDA干货】深入解析 SQL 中 CASE 语句条件的执行顺 ...

【CDA干货】SPSS 中计算三个变量交集的详细指南 ...

CDA 数据分析师：就业前景广阔的新兴职业 ...

【CDA干货】探秘卷积层：为何一个卷积层需要两个卷 ...

探索 CDA 数据分析师在线课程：开启数据洞察之旅 ...

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提 ...

【CDA干货】LSTM 为何会产生误差？深入剖析其背后的 ...

LLM进入拖拽时代！只靠Prompt几秒定制大模型，效率 ...

【CDA干货】探秘 z-score：数据分析中的标准化利器 ...

【CDA干货】Excel 中为不同柱形设置独立背景（按数 ...

CDA 数据分析师会被 AI 取代吗？

CDA 数据分析师证书考取全攻略​​​​ ...

人工智能在数据分析的应用场景

【CDA干货】评估模型预测为正时的准确性 ...

CDA认证：数据时代的职业通行证

金融行业的大数据变革：五大应用案例深度解析 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

CDA 数据分析师证书考取全攻略 ...