数据挖掘系列篇:聚类算法概述-CDA数据分析师官网

数据挖掘系列篇:聚类算法概述

2016-05-25

数据挖掘系列篇:聚类算法概述

本篇重点介绍聚类算法的原理，应用流程、使用技巧、评估方法、应用案例等。具体的算法细节可以多查阅相关的资料。聚类的主要用途就是客户分群。1.聚类 VS 分类

分类是“监督学习”，事先知道有哪些类别可以分。

聚类是“无监督学习”，事先不知道将要分成哪些类。

举个例子，比如苹果、香蕉、猕猴桃、手机、电话机。
根据特征的不同，我们聚类会分为【苹果、香蕉、猕猴桃】为水果的一类，和【手机、电话机】为数码产品的一类。
而分类的话，就是我们在判断“草莓”的时候，把它归为“水果”一类。

所以通俗的解释就是：分类是从训练集学习对数据的判断能力，再去做未知数据的分类判断；而聚类就是把相似的东西分为一类，它不需要训练数据进行学习。

学术解释：分类是指分析数据库中的一组对象，找出其共同属性。然后根据分类模型，把它们划分为不同的类别。分类数据首先根据训练数据建立分类模型，然后根据这些分类描述分类数据库中的测试数据或产生更恰当的描述。

聚类是指数据库中的数据可以划分为一系列有意义的子集，即类。在同一类别中，个体之间的距离较小，而不同类别上的个体之间的距离偏大。聚类分析通常称为“无监督学习”。

2.聚类的常见应用

我们在实际情况的中的应用会有：

marketing：客户分群

insurance：寻找汽车保险高索赔客户群

urban planning：寻找相同类型的房产

比如你做买家分析、卖家分析时，一定会听到客户分群的概念，用标准分为高价值客户、一般价值客户和潜在用户等，对于不同价值的客户提供不同的营销方案；

还有像在保险公司，那些高索赔的客户是保险公司最care的问题，这个就是影响到保险公司的盈利问题；

还有在做房产的时候，根据房产的地理位置、价格、周边设施等情况聚类热房产区域和冷房产区域。

3.k-means

（1）假定K个clusters（2）目标：寻找紧致的聚类

a.随机初始化clusters

b.分配数据到最近的cluster

c.重复计算clusters

d.repeat直到收敛

优点：局部最优

缺点：对于非凸的cluster有问题

其中K=？

K<=sample size

取决于数据的分布和期望的resolution

AIC，DIC

层次聚类避免了这个问题

4.评估聚类

鲁棒性？

聚类如何，是否过度聚合？

很多时候是取决于聚合后要干什么。

5.case案例

case 1：卖家分群云图

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

无监督学习无监督特征层次聚类数据挖掘

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据挖掘系列篇:聚类算法概述

CDA考试动态

CDA报考指南

热门栏目

最新资讯

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...

【干货】我手里有好几个产品，该怎么分配资源？-波 ...