层次聚类法通常分为自底向上和自顶向下。两种方法的运算原理其实是相同的。只不过实际计算是方向相反。 自底向上,又叫做合并法。这种方法是先将每个样本分别作为一个独立的类,然后通过距离计算,将距离相近的两个样本 合并为一类,其他样本仍然各自为一类。不断重复这个过程,直到达到聚类数或者设定的目标。 而自顶向下的方法,刚好相反。这种方法先把所有样本看成一类,然后通过距离计算,选出距离最远的两个样本,各自为 一个类别,其余样本根据距离远近分配到两个类别中,从而形成新的类别划分。不断重复过程,直到达到聚类数或者设定 的目标。因此又叫做分解法。 不管是采用哪种层次聚类的方法,一个关键的问题就是距离的定义。了解更多
1.最短距离法
最短距离法(Nearest Neighbor)是指当我们从A中取出一个样本,B中取出一个样本,计算两个样本之间的距离,能够得到 的最小值就是A和B两个类的距离。而最长距离法(Furthest Neighbor)则刚好相反。
2.中间距离法
3.类平均法
4.重心法
5.离差平方和法
离差平方和法,又叫Ward最小方差法(Ward’s Method):这种方法主要基于方差分析的思想,如果分类合 理,则同类样本间离差平方和应当较小,类与类间离差平方和应当较大。每次合并类别时,离差平方和会增 大,选择使得增加值最小的两类进行合并。因此,该方法很少受到异常值的影响,在实际应用中的分类效果 较好,适用范围广。但该方法要求样品间的距离必须是欧氏距离。 层次聚类的过程非常清楚,会形成类似树状的聚类图谱,便于理解和检查。聚类的变量可以是连续变量,也 可以是分类变量。衡量距离的方法也非常反复。 但是由于需要反复计算距离,限制了层次聚类的速度。因此不适用于数据量非常大或者变量非常多的项目。 如果计算机硬件有制约,也会影响层次聚类的可行性。
不同于层次聚类,K-Means聚类是一种快速聚类法,因此也适合应用于大样本量的数据,或者是进行一些前期的数据清洗 工作。K-Means聚类方法需要分析师自行指定聚类的数量,也就是其中的K。因此在实际分析过程中,往往需要多次调整K 的取值,反复尝试,以便得到最优的聚类结果。
其方法可以总结为:首先选择K个点作为中心点,这些中心点可以是分析者自己指定的,也可以是数据本身结构形成的, 或者是随机产生。所有样本与这K个中心点计算距离,按照距离最近的原则归入这些中心点。然后重新计算每个类的中心, 再次计算每个样本与类中心的距离,并按照最短距离原则重新划分类,如此迭代直至类不再变化为止。
和层次聚类法相比,快速聚类法计算量非常小。即使在样本数据量较大或者变量较多的情况下,仍然可以快速得出结果, 不会耗费太多的空间和时间,对硬件的依赖性也较低。它也因此得名快速聚类法。在分析时,用户也可以根据过往经验或者计算结果,指定初始中心点位置,也可以进一步增加聚类的效率。
但是这个方法应用范围也比较有限。因为需要事先指定聚类数,因此需要分析师有一定的经验积累,或者可能需要多次反 复尝试。对初始点位置也很敏感,容易导致聚类结果与数据真实分类出现差异,对异常值也比较敏感。同时聚类的变量也 必须是连续变量,对变量的“标准度”要求也相对较高,否则可能产生无意义的结果。而且K-Means聚类方法并不能对变 量进行聚类,也是它使用上的一个比较大的缺点。
两步聚类法结合了K-Means和系统聚类方法,先选择较大的类数量对样本进行快速聚类,然后对每个聚类的中心点进行系 统聚类,选择合适的分类数量,然后将聚类结果合并为较理想的数量。 在进行聚类时要结合业务理解对数据进行适当变换,并且需要对变量进行维度分析,聚类结果可以使用类中心之间的比较, 结合业务进行解读。
在实际使用聚类方法时,我们一般多用于客户画像、离群点检验、营销套餐设计等领域。在使用过程中,我们需要注意选取合适的聚类方法。 对于数据量较大或者变量较多的样本,优先考虑K-Means聚类法。样本数据量适中或者变量类型比较复杂的情况,则可以考虑使用层次聚 类法。特别综合的项目,也可以采用两步聚类法,结合两种聚类方法各自的优势,高效解决问题。
在聚类之前,数据清洗也是非常重要的。标准化可以帮助我们消除不同变量之间量纲的差异,但需要注意的是,在有些场景,比如欺诈分析 时,我们希望通过聚类去发现异常值,那么前期的数据清洗就要注意不能改变原有的分布情况,避免造成结果偏差。因此分箱法、小数定标 法等清洗方法在聚类问题中需要谨慎使用。另外,通过主成分分析或者因子分析等方法对变量进行降维,或者先进行变量聚类,也可以帮助 减少冗余变量,更有效地完成聚类。
在一些场景下,直接的业务字段并不能够很好地进行量化和数学分析,那么我们需要通过一些函数或者其他的方式,将其进行转换,灵活应 用,才能更好地解决问题。
聚类本身是一种数据算法,聚类的结果并不总是有实际的使用意义。因此对于聚类结果,我们需要谨慎地解读,适当地对其进行修正和调整, 从而更加贴近业务的使用。
最后,需要注意的是,聚类是一种无监督学习的算法。因此也并没有统一的评判标准。因此在实际使用过程中,我们可以把聚类结果和人为 选择或随机选择的结果放在一起进行比较,这个时候,我们可以通过观察聚类是否对整体的分类或者研究有提升作用来评判聚类的好坏。 当然,我们一般也可以近似地用组间平方和BSS(Between Sum of Squares)和组内平方和 WSS(Within Sum of Squares)来作为评价 指标判断聚类的类别数是否合适。显然BSS越大,WSS越小,聚类的效果就越好。
另外,只有两个变量的时候,我们也可以通过画图的方法来进行观察和评估。
A. 层次聚类
B. K均值聚类
C. 基于密度的聚类
D. 基于网格的聚类
答案:A 解析:层次聚类指的是形成类相似度层次图谱,便于直观的确定类之间的划分,聚类过程可做成聚类谱系图。聚类谱系图的 基本思路就在于按照两点之间的距离,按照由小到大的顺序依次进行连接。
2.以下哪个是K均值聚类法的缺陷( )?
A. 对初始点位置敏感,导致聚类结果与数据真实分类出现差异
B. 无法通过分析方法确定聚类个数
C. 容易受异常值的影响
D. 容易受到变量量纲的影响
答案:ABC 解析:这部分试题主要考核层次聚类和K均值快速聚类的优缺点和适用范围。当样本量超过50个时,一般采用K均值聚类法,其优点是 计算速度快,但是缺点就是ABC答案列出的那样。
3.某电商分析人员希望通过聚类方法定位代商家刷信用级别的违规者,以下哪些操作不应该进行?
A. 对变量进行标准化
B. 对变量进行百分位秩转换
D. 对变量进行分箱处理
答案:BD 解析:刷信用级别的违规者的行为会与正常消费行为在消费频次、平均消费金额等方面差异比较大,对其进行定位相当于发现异常点, 因此要求对变量的转换不能改变其原有分布形态。常用的标准化方法如中心标准化、极差标准化不会改变分布形态,而且在聚类前往 往需要使用标准化来消除变量的量纲,因此A不是答案;取百分位秩会将原变量变化为均匀分布,进行分箱处理也会改变原变量的分布, 因此BD是答案;因子分析、变量聚类用于数据降维,可以使聚类结果更合理。
点击CDA题库链接,获取免费版CDA题库入口,祝考试顺利,快速拿证!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
一、CDA持证人介绍 在数字化浪潮席卷商业领域的当下,数据分析已成为企业发展的关键驱动力。为助力大家深入了解数据分析在电商行 ...
2025-04-17CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-02最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26