Kmeans均值聚类算法的基本原理是什么？-CDA数据分析师官网

Kmeans均值聚类算法的基本原理是什么？

2020-07-08

Kmeans算法属于无监督学习的一种聚类算法，这种算法的目的为：在数据所属类别及类别数量不明确的前提下，依据数据自身的特点对数据进行聚类。聚类过程中，对于类别数量k的选取，需要一定的先验知识，也可根据“类内间距小，类间间距大“(一种聚类算法的理想情况)为目标进行实现。

一、Kmeans均值聚类算法优缺点

优点：容易实现。

缺点：收敛到局部最小值，在大规模数据集上收敛较慢

适用数据类型：数据型数据

二、Kmeans均值聚类算法

Kmeans均值聚类算法主要思想是:在给定K值和K个初始类簇中心点的情况下，把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中，所有点分配完毕之后，根据一个类簇内的所有点重新计算该类簇的中心点(取平均值)，然后再迭代的进行分配点和更新类簇中心点的步骤，直至类簇中心点的变化很小，或者达到指定的迭代次数。

具体算法描述如下：

(1)适当选择k个类的初始中心，最初一般为随机选取;

(2)在每次迭代中，对任意一个样本，分别求其到k个中心的欧式距离，将该样本归到距离最短的中心所在的类;

(3)利用均值方法更新该k个类的中心的值;

(4)对于所有的k个聚类中心，重复(2)(3)，类的中心值的移动距离满足一定条件时，则迭代结束，完成分类。

Kmeans聚类算法原理简单，效果也依赖于k值和类中初始点的选择。

三、Kmeans均值聚类的一般流程

1.收集数据：使用任意方法

2.准备数据：需要数据型数据来计算距离，也可以将标称型数据映射为二值型数据再用于距离计算。

3.分析数据：使用任意方法。

4.训练算法：不适用于无监督学习，即无监督学习没有训练过程。

5.测试算法：应用聚类算法，观察结果。可以使用量化的误差指标如误差平方和来评价算法的结果。

6.使用算法：可以用于所希望的任何应用，通常情况下，簇质心可以代表整个簇的数据来做出决策

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

Kmeans 无监督学习无监督

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇最大后验估计MAP是什么？它是怎么推导出来的？

下一篇如何理解欠拟合？常用的处理方法有哪些？

Kmeans均值聚类算法的基本原理是什么？

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...