无监督机器学习中，这几种聚类算法，你知道吗？-CDA数据分析师官网

无监督机器学习中，这几种聚类算法，你知道吗？

2020-07-24

机器学习中，我们最常遇到的就是无监督，有监督，半监督了。无监督和有监督的区别，小编之前跟大家分享过，今天跟大家分享的是无监督机器学习中常见的聚类算法，希望对大家无监督学习有所帮助。

一、基本概念

1.无监督学习：

无监督学习是机器学习的一种方法，根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题。无监督学习应用主要包含：聚类分析、关系规则、维度缩减。

2.聚类：

无监督学习里典型例子是聚类。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集，这样让在同一个子集中的成员对象都有相似的一些属性，常见的包括在坐标系中更加短的空间距离等。

最常见的无监督聚类算法：

K均值聚类

分层聚类

基于密度的扫描聚类(DBSCAN)

二、无监督聚类算法--K均值聚类

K均值聚类是我们最常用的基于欧式距离的聚类算法，它是数值的、非监督的、非确定的、迭代的，该算法旨在最小化一个目标函数——误差平方函数(所有的观测点与其中心点的距离之和)，其认为两个目标的距离越近，相似度越大，由于具有出色的速度和良好的可扩展性，K均值聚类算得上是最著名的聚类方法。

1.K均值中最常用的距离是欧氏距离平方。m维空间中两点x和y之间的距离的示例是：

这里，j是采样点x和y的第j维(或特征列)。

集群惯性是聚类上下文中给出的平方误差之和的名称，表示如下：

其中μ(j)是簇j的质心，并且如果样本x(i)在簇j中则w(i，j)是1.否则是0.

K均值可以理解为试图最小化群集惯性因子的算法。

2.具体算法

(1)选择k值，即我们想要查找的聚类数量。

(2)算法将随机选择每个聚类的质心。

(3)将每个数据点分配给最近的质心(使用欧氏距离)。

(4)计算群集惯性。

(5)将计算新的质心作为属于上一步的质心的点的平均值。换句话说，通过计算数据点到每个簇中心的最小二次误差，将中心移向该点。

(6)返回第3步。

二、无监督聚类算法--分层聚类

1.分层聚类是基于prototyope的聚类算法的替代方案。分层聚类的主要优点是不需要指定聚类的数量，它会自己找到它。此外，它还可以绘制树状图。树状图是二元分层聚类的可视化。

在底部融合的观察是相似的，而在顶部的观察是完全不同的。对于树状图，基于垂直轴的位置而不是水平轴的位置进行结算。

2.分层聚类的类型

分层聚类有两种方法：集聚和分裂。

分裂：这种方法首先将所有数据点放入一个集群中。然后，它将迭代地将簇分割成较小的簇，直到它们中的每一个仅包含一个样本。

集聚：这种方法从每个样本作为不同的集群开始，然后将它们彼此靠近，直到只有一个集群。

3.分层聚类优缺点

分层聚类的优点;

(1)由此产生的层次结构表示可以提供非常丰富的信息。

(2)树状图提供了一种有趣且信息丰富的可视化方式。

(3)当数据集包含真正的层次关系时，它们特别强大。

分层聚类的缺点：

(1)分层聚类对异常值非常敏感，并且在其存在的情况下，模型性能显着降低。

(2)从计算上讲，分层聚类非常昂贵。

三、无监督聚类算法--DBSCAN 聚类

DBSCAN(带噪声的基于密度的空间聚类方法)是一种流行的聚类算法，它被用来在预测分析中替代 K 均值算法。它并不要求输入簇的个数才能运行。但是，你需要对其他两个参数进行调优。

优缺点：

1.优点

①不需要指定簇的个数;

②可以对任意形状的稠密数据集进行聚类，相对的，K-Means之类的聚类算法一般只适用于凸数据集;

③擅长找到离群点(检测任务);

④两个参数ε\varepsilonε和minPts就够了;

⑤聚类结果没有偏倚，相对的，K-Means之类的聚类算法初始值对聚类结果有很大影响。

2.缺点

①高维数据有些困难;

②Sklearn中效率很慢(数据削减策略);

③如果样本集的密度不均匀、聚类间距差相差很大时，聚类质量较差，这时用DBSCAN聚类一般不适合;

④调参相对于传统的K-Means之类的聚类算法稍复杂，主要需要对距离阈值ε\varepsilonε，邻域样本数阈值MinPts联合调参，不同的参数组合对最后的聚类效果有较大影响。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

无监督无监督学习机器学习有监督特征半监督

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇KNN最近邻算法原理是什么？如何实现？

下一篇经典聚类算法Kmeans的基本原理及实现

无监督机器学习中，这几种聚类算法，你知道吗？

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【干货】“数据又崩了”？其实是你还不会做归因分析 ...

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...