无监督机器学习中，这几种聚类算法，你知道吗？-CDA数据分析师官网

热线电话：13121318867

首页大数据时代无监督机器学习中，这几种聚类算法，你知道吗？

无监督机器学习中，这几种聚类算法，你知道吗？

2020-07-24

机器学习中，我们最常遇到的就是无监督，有监督，半监督了。无监督和有监督的区别，小编之前跟大家分享过，今天跟大家分享的是无监督机器学习中常见的聚类算法，希望对大家无监督学习有所帮助。

一、基本概念

1.无监督学习：

无监督学习是机器学习的一种方法，根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题。无监督学习应用主要包含：聚类分析、关系规则、维度缩减。

2.聚类：

无监督学习里典型例子是聚类。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集，这样让在同一个子集中的成员对象都有相似的一些属性，常见的包括在坐标系中更加短的空间距离等。

最常见的无监督聚类算法：

K均值聚类

分层聚类

基于密度的扫描聚类(DBSCAN)

二、无监督聚类算法--K均值聚类

K均值聚类是我们最常用的基于欧式距离的聚类算法，它是数值的、非监督的、非确定的、迭代的，该算法旨在最小化一个目标函数——误差平方函数(所有的观测点与其中心点的距离之和)，其认为两个目标的距离越近，相似度越大，由于具有出色的速度和良好的可扩展性，K均值聚类算得上是最著名的聚类方法。

1.K均值中最常用的距离是欧氏距离平方。m维空间中两点x和y之间的距离的示例是：

这里，j是采样点x和y的第j维(或特征列)。

集群惯性是聚类上下文中给出的平方误差之和的名称，表示如下：

其中μ(j)是簇j的质心，并且如果样本x(i)在簇j中则w(i，j)是1.否则是0.

K均值可以理解为试图最小化群集惯性因子的算法。

2.具体算法

(1)选择k值，即我们想要查找的聚类数量。

(2)算法将随机选择每个聚类的质心。

(3)将每个数据点分配给最近的质心(使用欧氏距离)。

(4)计算群集惯性。

(5)将计算新的质心作为属于上一步的质心的点的平均值。换句话说，通过计算数据点到每个簇中心的最小二次误差，将中心移向该点。

(6)返回第3步。

二、无监督聚类算法--分层聚类

1.分层聚类是基于prototyope的聚类算法的替代方案。分层聚类的主要优点是不需要指定聚类的数量，它会自己找到它。此外，它还可以绘制树状图。树状图是二元分层聚类的可视化。

在底部融合的观察是相似的，而在顶部的观察是完全不同的。对于树状图，基于垂直轴的位置而不是水平轴的位置进行结算。

2.分层聚类的类型

分层聚类有两种方法：集聚和分裂。

分裂：这种方法首先将所有数据点放入一个集群中。然后，它将迭代地将簇分割成较小的簇，直到它们中的每一个仅包含一个样本。

集聚：这种方法从每个样本作为不同的集群开始，然后将它们彼此靠近，直到只有一个集群。

3.分层聚类优缺点

分层聚类的优点;

(1)由此产生的层次结构表示可以提供非常丰富的信息。

(2)树状图提供了一种有趣且信息丰富的可视化方式。

(3)当数据集包含真正的层次关系时，它们特别强大。

分层聚类的缺点：

(1)分层聚类对异常值非常敏感，并且在其存在的情况下，模型性能显着降低。

(2)从计算上讲，分层聚类非常昂贵。

三、无监督聚类算法--DBSCAN 聚类

DBSCAN(带噪声的基于密度的空间聚类方法)是一种流行的聚类算法，它被用来在预测分析中替代 K 均值算法。它并不要求输入簇的个数才能运行。但是，你需要对其他两个参数进行调优。

优缺点：

1.优点

①不需要指定簇的个数;

②可以对任意形状的稠密数据集进行聚类，相对的，K-Means之类的聚类算法一般只适用于凸数据集;

③擅长找到离群点(检测任务);

④两个参数ε\varepsilonε和minPts就够了;

⑤聚类结果没有偏倚，相对的，K-Means之类的聚类算法初始值对聚类结果有很大影响。

2.缺点

①高维数据有些困难;

②Sklearn中效率很慢(数据削减策略);

③如果样本集的密度不均匀、聚类间距差相差很大时，聚类质量较差，这时用DBSCAN聚类一般不适合;

④调参相对于传统的K-Means之类的聚类算法稍复杂，主要需要对距离阈值ε\varepsilonε，邻域样本数阈值MinPts联合调参，不同的参数组合对最后的聚类效果有较大影响。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

无监督无监督学习机器学习有监督特征半监督

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇KNN最近邻算法原理是什么？如何实现？

下一篇经典聚类算法Kmeans的基本原理及实现

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

无监督机器学习中，这几种聚类算法，你知道吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA 三级《敏捷数据挖掘》教材知识体系全面解读 ...

【CDA干货】付费玩家流失的核心原因与游戏行业长效 ...

CDA持证人专访：蒋少寒谈传统制造业与互联网行业数 ...

学完商业数据分析，开启 CDA 量化策略：从业务思维 ...

CDA持证人专访：赵森淼谈药企数据分析从业体验与转 ...

【CDA干货】卡方检验与T检验结果的标准化解读方法及 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载