数据挖掘之KNN分类-CDA数据分析师官网

数据挖掘之KNN分类

2018-03-05

分类算法有很多，贝叶斯、决策树、支持向量积、KNN等，神经网络也可以用于分类。这篇文章主要介绍一下KNN分类算法。

1、介绍

KNN是k nearest neighbor 的简称，即k最邻近，就是找k个最近的实例投票决定新实例的类标。KNN是一种基于实例的学习算法，它不同于贝叶斯、决策树等算法，KNN不需要训练，当有新的实例出现时，直接在训练数据集中找k个最近的实例，把这个新的实例分配给这k个训练实例中实例数最多类。KNN也成为懒惰学习，它不需要训练过程，在类标边界比较整齐的情况下分类的准确率很高。KNN算法需要人为决定K的取值，即找几个最近的实例，k值不同，分类结果的结果也会不同。

2、举例

看如下图的训练数据集的分布，该数据集分为3类（在图中以三种不同的颜色表示），现在出现一个待分类的新实例（图中绿色圆点），假设我们的K=3，即找3个最近的实例，这里的定义的距离为欧氏距离，这样找据该待分类实例最近的三个实例就是以绿点为中心画圆，确定一个最小的半径，使这个圆包含K个点。

如图所示，可以看到红圈包含的三个点中，类别2中有三个，类别3有一个，而类别1一个也没有，根据少数服从多数的原理投票，这个绿色的新实例应属于2类。

3、K值的选取。

之前说过，K值的选取，将会影响分类的结果，那么K值该取多少合理。我们继续上面提到的分类过程，现在我们把K设置为为7，如下图所示：

可以看到当k=7时，最近的7个点中1类有三个，2类和3类都有两个，这时绿色的新实例应该分给1类，这与K=5时的分类结果不同。

K值的选取没有一个绝对的标准，但可以想象，K取太大并不能提高正确率，而且求K个最近的邻居是一个O(K*N)复杂度的算法，k太大，算法效率会更低。

虽然说K值的选取，会影响结果，有人会认为这个算法不稳定，其实不然，这种影响并不是很大，因为只有这种影响只是在类别边界上产生影响，而在类中心附近的实例影响很小，看下图，对于这样的一个新实例，k=3,k=5,k=11结果都是一样的。

最后还有注意，在数据集不均衡的情况下，可能需要按各类的比例决定投票，这样小类的正确率才不会过低。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

KNN 决策树神经网络数据挖掘

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇数据中心扮演多重角色

下一篇数据库设计的基本步骤

数据挖掘之KNN分类

CDA考试动态

CDA报考指南

热门栏目

最新资讯

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...