层次聚类算法：Affinity Propogation算法学习指南-CDA数据分析师官网

热线电话：13121318867

层次聚类算法：Affinity Propogation算法学习指南

2020-06-10

Affinity Propogation最初是由Brendan Frey 和 Delbert Dueck于2007年在Science上提出的。相比其它的层次聚类算法，Affinity Propogation算法不需要预先指定聚类个数。

Affinity Propogation算法的原理可以简单的概括为：每一个数据点都会给其它的多有点发送信息，告知其它所有点每个目标对发送者（sender）的相对吸引力的目标值（target）。

随后，鉴于从所有其它sender收到信息的“attractiveness”，每个target所有sender一个回复，以告知与sender相联系的每一个sender的可用性。sender会给target回复相关信息，以告知每一个target对sender修正的相对“attractiveness”（基于从所有target收到的关于可用性的信息）。信息传递的整个过程直到达成一致才会停止。

一旦sender与某个target相联系，这个target就会称为该点（sender）的“典型代表（exemplar）”。所有被相同exemplar标记的点都被放置在一个聚类中。

算法

假定一个如下的数据集。每一个参与者代表一个五维空间的数据点。

相似性矩阵（C）

除了在对角线上的元素外，其它的元素是负的均方误差作为两个数据间的相似值。

计算公式如下：c(i, j) = -||X_i-X_y||^2c(i,j)=−∣∣Xi−Xy∣∣2以Alice和Bob为例，两者间的相似性计算过程如下：(3-4)^2+(4-3)^2+(3-5)^2+(2-1)^2+(1-1)^2 = 7(3−4)2+(4−3)2+(3−5)2+(2−1)2+(1−1)2=7。

因此，Alice与Bob之间的相似值为-7。

相似性值的计算边界出现在Bob和Edna间：(4-1)^2+(3-1)^2+(5-3)^2+(1-2)^2+(1-3)^2 = 22(4−1)2+(3−1)2+(5−3)2+(1−2)2+(1−3)2=22Bob和Edna之间的相似值为-22。

通过逐步的计算，最后得到的结果如下：

一般对角线上的元素取相似值中较小的数，在本例中取值为-22，因此，得到的相似性矩阵如下：

Responsibility Matrix ®

这里的responsibility matrix 是中间的过度步骤。通过使用如下的公式计算responsibility matrix：r(i, k ) \leftarrow s(i, k)- max_{k^{'} such\ that\ k^{'} \not= \ k} \{a(i, k^{'})+s(i, k^{'})\},r(i,k)←s(i,k)−maxk′such that k′= k{a(i,k′)+s(i,k′)},其中，i表示协同矩阵的行，k表示列的关联矩阵。

例如，r(Alice, Bob)r(Alice,Bob)的值为-1，首先提取similarity matrix中c(Alice, Bob)c(Alice,Bob)的值为-7，减去similarity matrix中Alice行的最大值为-6，因此，得到r(Alice, Bob)=-1r(Alice,Bob)=−1。

取值的边界为r(Cary, Doug)r(Cary,Doug)，其计算如下：

r(Cary, Doug) = -18-(-6)=-12r(Cary,Doug)=−18−(−6)=−12

根据上述公式计算得到的最终结果如下图所示：

Availability Matrix (a)

Availability Matrix的初始值为矩阵中的所有元素均为0。

首先，计算对角线上的元素值：a(k,k) \leftarrow \sum_{i^{'}such \ that \ i^{'} \not= k} max\{0, r\{i^{'}, k\}\},a(k,k)←i′such that i′=k∑max{0,r{i′,k}},其中，i表示协同矩阵的行，k表示协同矩阵的列。

实际上，上面的公式只告诉你沿着列，计算所有行与0比较的最大值（除列序与行序相等时的情况除外）。

例如，a(Alice, Alice)a(Alice,Alice)的计算如下：a(Alice, Alice) = 10+11+0+0 = 21a(Alice,Alice)=10+11+0+0=21

其次，计算非对角线上的元素值，分别以a(Alice, Cary)a(Alice,Cary)和a(Doug, Edna)a(Doug,Edna)为例，其计算过程如下所示：

a(Alice, Cary) = 1+0+0+0 = 1 \\ a(Doug, Edna)

= 0+0+0+9 = 9a(Alice,Cary)

=1+0+0+0=1a(Doug,Edna)

=0+0+0+9=9

以下公式是用于更新Availability Matrix，其公式如下：a(i, k) \leftarrow min\{0, r(k,k)+\sum_{i^{'} such \ that \ i^{'} \notin \{i, k\}} max{\{0, r(i^{'}, k)}\}\}a(i,k)←min{0,r(k,k)+i′such that i′∈/{i,k}∑max{0,r(i′,k)}}

当你想要更新a(Alice, Bob)a(Alice,Bob)的值时，其计算过程如下：a(Doug, Bob) = min\{{0,(-15)+0+0+0}\}=-15a(Doug,Bob)=min{0,(−15)+0+0+0}=−15最后得到的结果如下表所示：

Criterion Matrix ©

在得到上面的availability matrix后，将availability matrix和responsibility matrix的对应元素相加，便可得到criterion matrix。

其计算公式如下：c(i, k) \leftarrow r(i,k)+a(i,k).c(i,k)←r(i,k)+a(i,k).最后得到的criterion matrix的结果如下：

以上便是Affinity Propogation算法的计算过程，这是我见过最浅显易懂的讲解了，详见原文。

代码示例如下：

首先，导入相关库：

import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()
from sklearn.datasets.samples_generator import make_blobs
from sklearn.cluster import AffinityPropagation

使用scikit-learn生成需要的数据集，详见如下：

X, clusters = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)
plt.scatter(X[:,0], X[:,1], alpha=0.7, edgecolors='b')

训练模型（因为是无监督算法，因此不需要拆分训练集和测试集）：

af = AffinityPropagation(preference=-50)
clustering = af.fit(X)

最后，将不同聚类的点可视化：

plt.scatter(X[:,0], X[:,1], 
c=clustering.labels_, cmap='rainbow', alpha=0.7, 
edgecolors='b')

算法使用场景：

Affinity Propagation是一个无监督的机器学习算法，它尤其适用于那些不知道最佳聚类数情况的算法。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

无监督 numpy seaborn matplotlib 层次聚类机器学习

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇mysql面试经典50题：带你从聚合和分组开始

下一篇python知识普及：numpy基础操作

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

层次聚类算法：Affinity Propogation算法学习指南

算法

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

全球第一！上交AI智能体炼成Kaggle特级大师登顶Open ...

【CDA干货】探索最优回归方程：数据背后的精准预测 ...

CDA 证书：银行招聘中的 “黄金通行证” ...

CDA 数据分析师报考条件全解析：开启数据洞察之旅 ...

【CDA干货】深入解析 SQL 中 CASE 语句条件的执行顺 ...

【CDA干货】SPSS 中计算三个变量交集的详细指南 ...

CDA 数据分析师：就业前景广阔的新兴职业 ...

【CDA干货】探秘卷积层：为何一个卷积层需要两个卷 ...

探索 CDA 数据分析师在线课程：开启数据洞察之旅 ...

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提 ...

【CDA干货】LSTM 为何会产生误差？深入剖析其背后的 ...

LLM进入拖拽时代！只靠Prompt几秒定制大模型，效率 ...

【CDA干货】探秘 z-score：数据分析中的标准化利器 ...

【CDA干货】Excel 中为不同柱形设置独立背景（按数 ...

CDA 数据分析师会被 AI 取代吗？

CDA 数据分析师证书考取全攻略 ...

人工智能在数据分析的应用场景

【CDA干货】评估模型预测为正时的准确性 ...

CDA认证：数据时代的职业通行证

金融行业的大数据变革：五大应用案例深度解析 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

层次聚类算法：Affinity Propogation算法学习指南

算法

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

全球第一！上交AI智能体炼成Kaggle特级大师登顶Open ...

【CDA干货】探索最优回归方程：数据背后的精准预测 ...

CDA 证书：银行招聘中的 “黄金通行证” ...

CDA 数据分析师报考条件全解析：开启数据洞察之旅 ...

【CDA干货】深入解析 SQL 中 CASE 语句条件的执行顺 ...

【CDA干货】SPSS 中计算三个变量交集的详细指南 ...

CDA 数据分析师：就业前景广阔的新兴职业 ...

【CDA干货】探秘卷积层：为何一个卷积层需要两个卷 ...

探索 CDA 数据分析师在线课程：开启数据洞察之旅 ...

3D VLA新范式！CVPR冠军方案BridgeVLA，真机性能提 ...

【CDA干货】LSTM 为何会产生误差？深入剖析其背后的 ...

LLM进入拖拽时代！只靠Prompt几秒定制大模型，效率 ...

【CDA干货】探秘 z-score：数据分析中的标准化利器 ...

【CDA干货】Excel 中为不同柱形设置独立背景（按数 ...

CDA 数据分析师会被 AI 取代吗？

CDA 数据分析师证书考取全攻略​​​​ ...

人工智能在数据分析的应用场景

【CDA干货】评估模型预测为正时的准确性 ...

CDA认证：数据时代的职业通行证

金融行业的大数据变革：五大应用案例深度解析 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

CDA 数据分析师证书考取全攻略 ...