2020-06-18
阅读量:
1331
机器学习第二天作业知识点整理
KMeans的原理
- 先从没有标签的元素集合A中随机取k个元素作为k个子集各自的中心
- 分别计算剩下的元素到k个子集中心的距离,将这些元素分别划归到最近的子集
- 根据聚类结果,重新计算中心(子集中所有元素各个维度的算数平均数)
- 将集合A中全部元素按照新的中心然后再重新聚类
- 重复以上步骤,直到聚类的结果不再发生变化
KMeans的优点
- 原理比较简单,实现也很容易,收敛速度快。
- 球状聚类效果较优。
- 算法的可解释度比较强。
- 主要需要调参的参数仅仅是簇数k。
KMeans的缺点
- K值的选取不好把握,需要自己选择。
- 对于不是凸的数据集比较难收敛。
- 如果各隐含类别的数据不平衡,比如各隐含类别的数据量严重失衡,或者各隐含类别的方差不同,则聚类效果不佳。
- 采用迭代方法,得到的结果只是局部最优。
- 对离群点和孤立点比较敏感。
- 初始聚类中心需要多次选择。






评论(0)


暂无数据
推荐帖子
0条评论
0条评论
0条评论