聚类算法之K均值 -CDA数据分析师官网

热线电话：13121318867

聚类算法之K均值

2016-01-08

聚类算法之K均值

有时候，我们只有训练样本的特征，而对其类型一无所知。这种情况，我们只能让算法尝试在训练数据中寻找其内部的结构，试图将其类别挖掘出来。这种方式叫做无监督学习。由于这种方式通常是将样本中相似的样本聚集在一起，所以又叫聚类算法。本文，中颢润将介绍一种最常用的聚类算法：K均值聚类算法（K-Means）。

1、K均值聚类

K-Means算法思想简单，效果却很好，是最有名的聚类算法。聚类算法的步骤如下：

a：初始化K个样本作为初始聚类中心；

b：计算每个样本点到K个中心的距离，选择最近的中心作为其分类，直到所有样本点分类完毕；

c：分别计算K个类中所有样本的质心，作为新的中心点，完成一轮迭代。

通常的迭代结束条件为新的质心与之前的质心偏移值小于一个给定阈值。

下面给一个简单的例子来加深理解。如下图有4个样本点，坐标分别为A(-1,-1),B(1,-1),C(-1,1),D(1,1)。现在要将他们聚成2类，指定A、B作为初始聚类中心（聚类中心A0,B0），指定阈值0.1。K-Means迭代过程如下：

step 1.1：计算各样本距离聚类中心的距离：

样本A：d(A,A0) = 0;d(A,B0) = 2;因此样本A属于A0所在类；

样本B：d(B,A0) = 2;d(B,B0) = 0;因此样本B属于B0所在类；

样本C：d(C,A0) = 2;d(C,B0) = 2.8;;因此样本C属于A0所在类；

样本C：d(D,A0) =2.8; d(D,B0) = 2;;因此样本C属于B0所在类；

step 1.2：全部样本分类完毕，现在计算A0类（包含样本AC）和B0类（包含样本BD）的新的聚类中心：

A1 =(-1, 0); B1 = (1,0);

step 1.3：计算聚类中心的偏移值是否满足终止条件：

|A1-A0|= |(-1,0)-(-1,-1) | = |(0,1)| = 1 >0.1，因此继续迭代。

step 2.1：计算各样本距离聚类中心的距离：

样本A：d(A,A1) = 1;d(A,B1) = 2.2;因此样本A属于A1所在类；

样本B：d(B,A1) =2.2; d(B,B1) = 1;因此样本B属于B1所在类；

样本C：d(C,A1) = 1;d(C,B1) = 2.2;;因此样本C属于A1所在类；

样本D：d(D,A1) =2.2; d(D,B1) = 1;;因此样本C属于B1所在类；

step 2.2：全部样本分类完毕，现在计算A1类（包含样本AC）和B1类（包含样本BD）的新的聚类中心：

A2 =(-1, 0); B2 = (1,0);

step 2.3：计算聚类中心的偏移值是否满足终止条件：

|A2-A1|= |B2-B1| = 0 <0.1，因此迭代终止。

2、测试数据

下面这个测试数据有点类似SNS中的好友关系，假设是10个来自2个不同的圈子的同学的SNS聊天记录。显然，同一个圈子内的同学会有更密切的关系和互动。

数据如下所示，每一行代表一个好友关系。如第一行表示同学0与同学1的亲密程度为9（越高表示联系越密切）。

显然，这个数据中并没有告知我们这10个同学分别属于哪个圈子。因此我们的目标是使用K-Means聚类算法，将他们聚成2类。

[plain]view plaincopy

0 1 9

0 2 5

0 3 6

0 4 3

1 2 8

......

这个例子设计的很简单。我们使用上一篇文章中提到的关系矩阵，将其可视化出来，会看到如下结果：

这是个上三角矩阵，因为这个数据中认为好友关系是对称的。上图其实很快能发现，0,1,2,3,4用户紧密联系在一起，而5,6,7,8,9组成了另外一个圈子。

下面我们看看K-Means算法能否找出这个答案。

3、代码与分析

K-Means算法的Python代码如下：

[python]view plaincopy

# -*-coding: utf-8 -*-

frommatplotlib import pyplot

importscipy as sp

importnumpy as np

fromsklearn import svm

importmatplotlib.pyplot as plt

fromsklearn.cluster import KMeans

fromscipy import sparse

#数据读入

data =np.loadtxt('2.txt')

x_p =data[:, :2] # 取前2列

y_p =data[:, 2] # 取前2列

x =(sparse.csc_matrix((data[:,2], x_p.T)).astype(float))[:, :].todense()

nUser =x.shape[0]

#可视化矩阵

pyplot.imshow(x,interpolation='nearest')

pyplot.xlabel('用户')

pyplot.ylabel('用户')

pyplot.xticks(range(nUser))

pyplot.yticks(range(nUser))

pyplot.show()

#使用默认的K-Means算法

num_clusters= 2

clf =KMeans(n_clusters=num_clusters, n_init=1, verbose=1)

clf.fit(x)

print(clf.labels_)

#指定用户0与用户5作为初始化聚类中心

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

matplotlib 特征 numpy 无监督学习无监督 python

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

聚类算法之K均值

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】SQL Server 提示“实例已在使用”：常见 ...

【CDA干货】Excel数据透视表两列相乘：正确计算方法 ...

从“模糊需求”到“精确标尺”：CDA数据分析师视角 ...

CDA持证人专访：冯卓基谈大数据平台搭建与行业数字 ...

【CDA干货】基于月度数据的送货率提升专项数据分析 ...

从“样本均值”到“总体真相”：CDA数据分析师视角 ...

【CDA干货】指标：量化业务的核心衡量标准与设计指 ...

【CDA干货】Excel透视表计算字段：先乘法后求和汇总 ...

从“杂乱”到“有序”：CDA数据分析师视角下的数据 ...

CDA持证人专访：崔爱军谈地产行业数据治理与数据中 ...

【CDA干货】显著水平与P值的核心区别、关联关系及实 ...

为什么统计是数据分析师的“底层语言”？ ...

【CDA干货】数据分析核心技能体系：从工具落地到业 ...

【CDA干货】企业价值市场法价值比率与线性回归分析 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

CDA持证人专访：赵君研谈金融行业数据分析与运营岗 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载