
周末,小迪与女朋友小西走出电影院,回味着刚刚看过的电影。
小迪:刚刚的电影很精彩,打斗场景非常真实,又是一部优秀的动作片!
小西:是吗?我怎么感觉这是一部爱情片呢?真心被男主女主的爱情感动了,唔。。。
小迪:是动作片好不好?不信的话我们用K近邻来分类!
小西:K近邻是什么,怎么分类?
小迪:我们以接吻镜头与打斗镜头作为两种电影的特征,只要知道一部电影的接吻镜头与打斗镜头的个数,利用现有的带标签数据集便可以对未知类型的电影进行类型预测。
小西:不是很明白,可以讲简单点吗?
小迪:我们可以这样理解,假设有一个未知的x,我们尽量让特征相近的的点靠近,这样想要知道x是什么性质的,我们可以观察它邻近的k个点,这些点多数是什么性质的,那么x的性质也就是可以预测出来了。
小西:哦哦,明白了。有点像那句俗语——物以类聚人以群分呢!
小迪:是啊,是有这么个意思!我们回去用python实现一下这个算法吧。
小西:好的,走!
k-近邻算法(k-Nearest Neighbour algorithm),又称为KNN算法,是数据挖掘技术中原理最简单的算法。KNN的工作原理:给定一个已知标签类别的训练数据集,输入没有标签的新数据后,在训练数据集中找到与新数据最邻近的k个实例,如果这k个实例的多数属于某个类别,那么新数据就属于这个类别。
如上图中有红色三角和蓝色方块两种类别,现在需要判断绿色圆点属于哪种类别
当k=3时,绿色圆点属于红色三角这种类别;
当k=5时,绿色圆点属于蓝色方块这种类别。
小迪回到家,打开电脑,想实现一个分类电影的案例。于是他找了几部前段时间比较热门的电影,然后根据接吻镜头与动作镜头打上标签,用k-近邻算法分类一个电影是爱情片还是动作片(打斗镜头和接吻镜头数量为虚构)。
表中就是已有的数据集合,也就是训练样本集。这个数据集有两个特征——打斗镜头数和接吻镜头数。除此之外,每部电影的所属类型也是已知的,即分类标签。粗略看来,接吻镜头多的就是爱情片,打斗镜头多的就是动作片。多年来的经验就是如此。如果现在有一部新的电影,告知电影中的打斗镜头和接吻镜头分别是多少,那么多数人可以根据给出的信息进行判断,这部电影是属于爱情片还是动作片。而k-近邻算法也可以像人类一样做到这一点。但是,这仅仅是两个特征,如果特征变成10,100,1000甚至更多,恐怕人类就难以完成这样的任务了。但是有了算法的计算机是不怕疲劳而且精于计算的,这样的问题可以轻松解决!
已经知道k-近邻算法的工作原理,根据特征比较,然后提取样本集中特征最相似数据(最近邻)的分类标签。那么如何进行比较呢?比如表中新出的电影,该如何判断它所属的电影类别呢?如下图所示。
从散点图中大致推断,这个未知电影有可能是爱情片,因为看起来距离已知的三个爱情片更近一点。而在k-近邻算法中是利用距离进行判断的。这个电影分类例子中有两个特征,也就是在二维平面中计算两点之间的距离,这很容易可以联想到中学时代学过的距离公式:
如果是多个特征扩展到N维空间,怎么计算?可以使用欧氏距离(也称欧几里得度量),如下所示:
通过计算可以得到训练集中所有电影与未知电影的距离,如下表所示:
通过上面表中的计算结果,小迪知道绿点标记的电影到爱情片《后来的我们》距离最近,为29.1。如果仅仅根据这个结果,判定绿点电影的类别为爱情片,是不是这样呢?答案是不是,这个算法叫做最近邻算法,只看距离最近的一个点,而不是k个点,所以不是k-近邻算法。k-近邻算法步骤如下:
(1) 计算已知类别数据集中的点与当前点之间的距离;
(2) 按照距离递增次序排序;
(3) 选取与当前点距离最小的k个点;
(4) 确定前k个点所在类别的出现频率;
(5) 返回前k个点出现频率最高的类别作为当前点的预测类别。
小迪设定K=4,那么在这个电影例子中,把距离按照升序排列,距离绿点电影最近的前4个的电影分别是《后来的我们》、《前任3》、《无问西东》和《红海行动》,这四部电影的类别统计为爱情片:动作片=3:1,出现频率最高的类别为爱情片,所以在k=4时,绿点电影的类别为爱情片。这个判别过程就是k-近邻算法。
1. 算法实现
1.1构建已经分类好的原始数据集
为了方便验证,这里使用python的字典dict构建数据集,然后再将其转化成DataFrame格式。
import pandas as pd
rowdata={'电影名称':['无问西东','后来的我们','前任3','红海行动','唐人街探案','战狼2'],
'打斗镜头':[1,5,12,108,112,115],
'接吻镜头':[101,89,97,5,9,8],
'电影类型':['爱情片','爱情片','爱情片','动作片','动作片','动作片']}
movie_data= pd.DataFrame(rowdata)
movie_data
1.2计算已知类别数据集中的点与当前点之间的距离
new_data = [24,67]
dist = list((((movie_data.iloc[:6,1:3]-new_data)**2).sum(1))**0.5)
dist
1.3将距离升序排列,然后选取距离最小的k个点
dist_l = pd.DataFrame({'dist': dist, 'labels': (movie_data.iloc[:6, 3])})
dr = dist_l.sort_values(by = 'dist')[: 4]
dr
1.4确定前k个点所在类别的出现频率
re = dr.loc[:,'labels'].value_counts()
re
1.5选择频率最高的类别作为当前点的预测类别
result = []
result.append(re.index[0])
result
2. 封装函数
完整的流程已经实现了,下面我们需要将这些步骤封装成函数,方便我们后续的调用。
import pandas as pd
"""
函数功能:KNN分类器
参数说明:
new_data:需要预测分类的数据集
dataSet:已知分类标签的数据集(训练集)
k:k-近邻算法参数,选择距离最小的k个点
返回:
result:分类结果
"""
def classify0(inX,dataSet,k):
result = []
dist = list((((dataSet.iloc[:,1:3]-inX)**2).sum(1))**0.5)
dist_l = pd.DataFrame({'dist':dist,'labels':(dataSet.iloc[:, 3])})
dr = dist_l.sort_values(by = 'dist')[: k]
re = dr.loc[:, 'labels'].value_counts()
result.append(re.index[0])
return result
测试函数运行结果
inX = new_data
dataSet = movie_data
k = 3
classify0(inX,dataSet,k)
这就是我们使用k-近邻算法构建的一个分类器,根据我们的“经验”可以看出,分类器给的答案还是比较符合我们的预期的。
小迪:k近邻算法虽然是机器学习算法中最简单的算法,没有之一,但是它确实也是蛮厉害呢!
小西:是呀,没想到这么简单的算法还有这么厉害的作用呢!那是不是这种算法永远不会出错呢?
小迪:那当然不是啦。没有哪个模型是完美的。分类器并不会得到百分百正确的结果,我们可以使用很多种方法来验证分类器的准确率。此外,分类器的性能也会受到很多因素的影响,比如k的取值就在很大程度上影响了分类器的预测结果,还有分类器的设置、原始数据集等等。为了测试分类器的效果,我们可以把原始数据集分为两部分,一部分用来训练算法(称为训练集),一部分用来测试算法的准确率(称为测试集)。同时,我们不难发现,k-近邻算法没有进行数据的训练,直接使用未知的数据与已知的数据进行比较,得到结果。因此,可以说,k-近邻算法不具有显式的学习过程。
小西:原来如此,今天还是收获满满呢!
1. 优点
2. 缺点
小迪跟小西有一个好朋友叫小艾。小艾与小迪是同事,在一家公司做数据分析。
小艾一直使用在线约会网站寻找适合自己的约会对象,尽管约会网站会推荐不同的人选,但他并不是每一个都喜欢,经过一番总结,她发现曾经交往的对象可以分为三类:
小艾收集约会数据已经有了一段时间,他把这些数据存放在文本文件datingTestSet.txt中,其中各字段分别为:
1. 准备数据
datingTest = pd.read_table('datingTestSet.txt',header=None)
datingTest.head()
datingTest.shape
http://datingTest.info()
2. 分析数据
小艾使用 Matplotlib 创建散点图,查看各数据的分布情况。
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
#把不同标签用颜色区分
Colors = []
for i in range(datingTest.shape[0]):
m = datingTest.iloc[i,-1]
if m=='didntLike':
Colors.append('black')
if m=='smallDoses':
Colors.append('orange')
if m=='largeDoses':
Colors.append('red')
plt.rcParams['font.sans-serif']=['Simhei'] #图中字体设置为黑体
pl=plt.figure(figsize=(12,8))
fig1=pl.add_subplot(221)
plt.scatter(datingTest.iloc[:,1],datingTest.iloc[:,2],marker='.',c=Colors)
plt.xlabel('玩游戏视频所占时间比')
plt.ylabel('每周消费冰淇淋公升数')
fig2=pl.add_subplot(222)
plt.scatter(datingTest.iloc[:,0],datingTest.iloc[:,1],marker='.',c=Colors)
plt.xlabel('每年飞行常客里程')
plt.ylabel('玩游戏视频所占时间比')
fig3=pl.add_subplot(223)
plt.scatter(datingTest.iloc[:,0],datingTest.iloc[:,2],marker='.',c=Colors)
plt.xlabel('每年飞行常客里程')
plt.ylabel('每周消费冰淇淋公升数')
plt.show()
3. 数据归一化
下表是提取的4条样本数据,小艾想要计算样本1和样本2之间的距离,于是使用欧几里得计算公式:
小艾发现,上面公式中差值最大的属性对计算结果的影响最大,也就是说每年飞行常客里程对计算结果的影响远远大于其他两个特征,原因仅仅是因为它的数值比较大,但是在小艾看来这三个特征是同等重要的,所以接下来要进行数值归一化的处理,使得这三个特征的权重相等。
数据归一化的处理方法有很多种,比如0-1标准化、Z-score标准化、Sigmoid压缩法等等,在这里使用最简单的0-1标准化,公式如下:
函数功能:归一化
参数说明:
dataSet:原始数据集
返回:0-1标准化之后的数据集
"""
def minmax(dataSet):
minDf = dataSet.min()
maxDf = dataSet.max()
normSet = (dataSet - minDf )/(maxDf - minDf)
return normSet
小艾将数据集带入函数,进行归一化处理
datingT = pd.concat([minmax(datingTest.iloc[:, :3]), datingTest.iloc[:,3]], axis=1)
datingT.head()
4. 划分训练集和测试集
为了测试分类器的效果,小艾把原始数据集分为训练集和测试集两部分,训练集用来训练模型,测试集用来验证模型准确率。
关于训练集和测试集的切分函数,网上有很多,Scikit Learn官网上也有相应的函数比如modelselection 类中的traintest_split 函数也可以完成训练集和测试集的切分。
通常只提供已有数据的90%作为训练样本来训练模型,其余10%的数据用来测试模型。这里需要注意的10%的测试数据一定要是随机选择出来的,由于小艾提供的数据并没有按照特定的目的来排序,所以这里可以随意选择10%的数据而不影响其随机性。
"""
函数功能:切分训练集和测试集
参数说明:
dataSet:原始数据集
rate:训练集所占比例
返回:切分好的训练集和测试集
"""
def randSplit(dataSet,rate=0.9):
n = dataSet.shape[0]
m = int(n*rate)
train = dataSet.iloc[:m,:]
test = dataSet.iloc[m:,:]
test.index = range(test.shape[0])
return train,test
train,test = randSplit(datingT)
train
test
5. 分类器针对于约会网站的测试代码
接下来,小艾开始构建针对于这个约会网站数据的分类器,上面已经将原始数据集进行归一化处理然后也切分了训练集和测试集,所以函数的输入参数就可以是train、test和k(k-近邻算法的参数,也就是选择的距离最小的k个点)。
"""
函数功能:k-近邻算法分类器
参数说明:
train:训练集
test:测试集
k:k-近邻参数,即选择距离最小的k个点
返回:预测好分类的测试集
"""
def datingClass(train,test,k):
n = train.shape[1] - 1
m = test.shape[0]
result = []
for i in range(m):
dist = list((((train.iloc[:, :n] - test.iloc[i, :n]) ** 2).sum(1))**5)
dist_l = pd.DataFrame({'dist': dist, 'labels': (train.iloc[:, n])})
dr = dist_l.sort_values(by = 'dist')[: k]
re = dr.loc[:, 'labels'].value_counts()
result.append(re.index[0])
result = pd.Series(result)
test['predict'] = result
acc = (test.iloc[:,-1]==test.iloc[:,-2]).mean()
print(f'模型预测准确率为{acc}')
return test
最后,测试上述代码能否正常运行,使用上面生成的测试集和训练集来导入分类器函数之中,然后执行并查看分类结果。
datingClass(train,test,5)
从结果可以看出,小艾的模型准确率还不错,这是一个不错的结果了,离找女朋友更近了一步。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
用 SQL 生成逆向回滚 SQL:数据操作的 “后悔药” 指南 在数据库操作中,误删数据、错改字段或误执行批量更新等问题时有发生。 ...
2025-07-14如何考取数据分析师证书:以 CDA 为例 在数字化浪潮席卷各行各业的当下,数据分析师已然成为企业挖掘数据价值、驱动决策的 ...
2025-07-14t检验与Wilcoxon检验的选择:何时用t.test,何时用wilcox.test? t 检验与 Wilcoxon 检验的选择:何时用 t.test,何时用 wilcox. ...
2025-07-14AI 浪潮下的生存与进阶: CDA数据分析师—开启新时代职业生涯的钥匙(深度研究报告、发展指导白皮书) 发布机构:CDA数据科 ...
2025-07-13LSTM 模型输入长度选择技巧:提升序列建模效能的关键 在循环神经网络(RNN)家族中,长短期记忆网络(LSTM)凭借其解决长序列 ...
2025-07-11CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-11数据透视表中两列相乘合计的实用指南 在数据分析的日常工作中,数据透视表凭借其强大的数据汇总和分析功能,成为了 Excel 用户 ...
2025-07-11尊敬的考生: 您好! 我们诚挚通知您,CDA Level I和 Level II考试大纲将于 2025年7月25日 实施重大更新。 此次更新旨在确保认 ...
2025-07-10BI 大数据分析师:连接数据与业务的价值转化者 在大数据与商业智能(Business Intelligence,简称 BI)深度融合的时代,BI ...
2025-07-10SQL 在预测分析中的应用:从数据查询到趋势预判 在数据驱动决策的时代,预测分析作为挖掘数据潜在价值的核心手段,正被广泛 ...
2025-07-10数据查询结束后:分析师的收尾工作与价值深化 在数据分析的全流程中,“query end”(查询结束)并非工作的终点,而是将数 ...
2025-07-10CDA 数据分析师考试:从报考到取证的全攻略 在数字经济蓬勃发展的今天,数据分析师已成为各行业争抢的核心人才,而 CDA(Certi ...
2025-07-09【CDA干货】单样本趋势性检验:捕捉数据背后的时间轨迹 在数据分析的版图中,单样本趋势性检验如同一位耐心的侦探,专注于从单 ...
2025-07-09year_month数据类型:时间维度的精准切片 在数据的世界里,时间是最不可或缺的维度之一,而year_month数据类型就像一把精准 ...
2025-07-09CDA 备考干货:Python 在数据分析中的核心应用与实战技巧 在 CDA 数据分析师认证考试中,Python 作为数据处理与分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 检验:数据趋势与突变分析的有力工具 在数据分析的广袤领域中,准确捕捉数据的趋势变化以及识别 ...
2025-07-08备战 CDA 数据分析师考试:需要多久?如何规划? CDA(Certified Data Analyst)数据分析师认证作为国内权威的数据分析能力认证 ...
2025-07-08LSTM 输出不确定的成因、影响与应对策略 长短期记忆网络(LSTM)作为循环神经网络(RNN)的一种变体,凭借独特的门控机制,在 ...
2025-07-07统计学方法在市场调研数据中的深度应用 市场调研是企业洞察市场动态、了解消费者需求的重要途径,而统计学方法则是市场调研数 ...
2025-07-07CDA数据分析师证书考试全攻略 在数字化浪潮席卷全球的当下,数据已成为企业决策、行业发展的核心驱动力,数据分析师也因此成为 ...
2025-07-07