KNN算法思想与应用例子
这篇文章是在学习KNN时写的笔记,所参考的书为《机器学习实战》,希望深入浅出地解释K近邻算法的思想,最后放一个用k近邻算法识别图像数字的例子。
KNN算法也称K近邻,是一种监督学习算法,即它需要训练集参与模型的构建。它适用于带标签集的行列式(可理解为二维数组)的数据集。
需要准备的数据有:训练数据集,训练标签集(每个数据与每个标签都一一对应)用于参与模型构建;
需要测试的数据集——通过这个模型得出——标签集(每个数据对应的标签)
举个例子:我们把人体的指标量化,比如体重多少,三围多少,脂肪比例多少,然后这个标签就是性别(男或女)。我们的训练数据集就是500个男性和500个女性的身体指标,每个数据对应性别标签(男或女),这个就是训练标签集。然后我们输入一个人的指标,模型给出一个性别的判断,这个就是输出的标签集,也就是最后的预测结果。
算法的流程为:
1、计算输入测试数据与训练数据集的距离,这里用欧式距离来计算。
2、根据得到的距离大小,按升序排序
3、取前K个距离最小的数据集对应的标签
4、计算这些标签的出现频率
5、取出现频率最高的标签作为输入的测试数据的最后的标签,即预测结果
其中,欧式距离的计算公式如下:
这个公式怎么理解呢?假设输入的被测数据为A,它有两个维度(或者说字段),分别是AX1和AX2。B为训练数据集,同理也有两个维度,BX1和BX2和,所以以上的计算公式即不同维度的差的平方的和的开方。
下面直接贴上代码,每一段都附有注释,希望童鞋们可以通过理解代码的执行来掌握整个KNN算法的流程。
# KNN算法主程序
def knnmain(inX,dataset,labels,k): #输入量有(被测数据,训练数据集,训练标签集,K值),输入量皆为数组形式
datasetsite=dataset.shape[0] #取训练数据集的总数量n
inXdata=tile(inX,(datasetsite,1)) #将被测数据的数组复制为n行相同数组组成的二维数组,方便下面的欧式距离计算
sqdistance=inXdata-dataset #开始计算欧式距离,这里计算被测数据和训练数据集之间相同维度的差
distance=sqdistance**2 #计算差的平方
dist=distance.sum(axis=1) #计算不同维度的差的平方的总和
lastdistance=dist**0.5 #将总和开方
sortnum=lastdistance.argsort() #返回从小到大(增序)的索引值
countdata={} #创建一个空字典用于储存标签和对应的数量值
for i in range(k):
vlabels=labels[sortnum[i]] #将前k个距离最近的数据的标签传给vlabels
countdata[vlabels]=countdata.get(vlabels,0)+1 #vlabels作为字典的键,而其出现的次数作为字典的值
sortnumzi=sorted(countdata.iteritems(),key=operator.itemgetter(1),reverse=True) #将字典按值降序排序,即第一位是出现次数最多的标签
return sortnumzi[0][0] #返回出现次数最多的标签值
整个KNN算法的核心思想是比较简洁的,下面贴一个手写数字识别的应用。
一个文本文档里储存一个32*32的由1和0组成的图像,差不多是下图所示:
我们大概能识别出第一个图片里是0,第二个图片里是1,实际上每个文本文档都有一个文档名,如第一个图片的文档名就是"0_0.txt",那么我们就可以从文档名里取得该图片的标签。我们有一个训练文件夹,里面的文档文件可以获取并构成训练数据集和训练标签集。
我们也有一个测试文件夹,同理里面的文档文件也可以获取并构成测试数据集和测试标签集(拿来与预测结果做对比)。文件夹截图如下:
下面直接贴上代码帮助理解
先是一个将32*32的文本文档转化为1*1024的程序,因为我们写的KNN算法主程序是以一行为单位的。
def to_32(filename):
returnoss=zeros((1,1024))
ma=open(filename)
i=int(0)
for line in ma.readlines():
for j in range(32):
returnoss[0,i*32+j]=line[j]
i += 1
return returnoss
下面是手写数字识别程序:
def distinguish():
filestrain=listdir('trainingDigits') #打开训练集文件夹
filestest=listdir('testDigits') #打开测试集文件夹
mtrain=len(filestrain) #训练集文件数量
mtest=len(filestest) #测试集文件数量
allfilestrain=zeros((mtrain,1024)) #m行1024列的矩阵
allfilestest=zeros((mtest,1024))
labelstrain=[] #创造一个空列表用于储存试验向量的标签
labelstest=[]
for i in range(mtrain):
nametrain=filestrain[i] #选取文件名
inX=open('trainingDigits/%s' % nametrain)
allfilestrain[i,:]=to_32(inX) ##把每个文件中的32*32矩阵转换成1*1024的矩阵
label1=nametrain.split('.')[0]
label1=int(label1.split('_')[0]) #获取每个数据的标签
labelstrain.append(label1) #将所有标签合成一个列表
for j in range(mtest):
nametest=filestest[j]
inY=open('trainingDigits/%s' % nametest)
allfilestest[j,:]=to_32(inY)
label2=nametest.split('.')[0]
label2=int(label2.split('_')[0])
labelstest.append(label2)
labelstrain=np.array(labelstrain)
labelstest=np.array(labelstest)
grouptrain=allfilestrain
grouptest=allfilestest
error=0.0 #初始化判断错误率
results=[]
for line in grouptest:
result=knnmain(line,grouptrain,labelstrain,3)
results.append(result)
errornum=0 ##初始化判断错误数量
print 'the wrong prodiction as:'
for i in range(mtest):
if results[i] != labelstest[i]:
print 'result=',results[i],'labelstest=',labelstest[i] #输出所有判断错误的例子
errornum +=1
print 'the errornum is:',errornum #输出判断错误量
print 'the allnum is:',mtest #输出总测试量
error=float(errornum/float(mtest))
print 'the error persent is:',error #输出总测试错误率
该程序运行截图如下:
我们看到错误率是比较低,说明该算法的精度是很高的。
结语:从上面例子的应用来看,KNN算法的精度是很高,但是对噪声有些敏感,我们观察上面的运行结果,凡是判断失误的一般是两个数字长得比较像,比如9和5,下面的勾很像,9和7,也是比较像的,也就是说,假如测试的数据有些偏于常态,可能一个7长得比较歪,那就判断为9了,这些都是噪声,它对这些噪声的数据是无法精准识别的,因为k值较小,下面会说到k值得取值问题。另有,它的计算相对复杂,若对象数据集巨大,则计算量也很大。当然,最重要的一点,对k值的把握很重要,这一般是根据具体情况来判断,较大的k值能减少噪声干扰,但会使分类界限模糊,较小的k值又容易被噪声影响。一般取一个较小的k值,再通过交叉验证来选取最优k值。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06在现代企业中,数据分析师扮演着至关重要的角色。每天都有大量数据涌入,从社交媒体到交易平台,数据以空前的速度和规模生成。面 ...
2025-01-06在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-03在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-03在数据分析的江湖里,有两个阵营总是争论不休。一派信奉“大即是美”,认为数据越多越好;另一派坚守“小而精”,力挺质量胜于规 ...
2025-01-02数据分析是一个复杂且多维度的过程,从数据收集到分析结果应用,每一步都是对信息的提炼与升华。可视化分析结果,以图表的形式展 ...
2025-01-02在当今的数字化时代,数据分析师扮演着一个至关重要的角色。他们如同现代企业的“解密专家”,通过解析数据为企业提供决策支持。 ...
2025-01-02数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪 ...
2024-12-31数据分析,听起来好像是技术大咖的专属技能,但其实是一项人人都能学会的职场硬核能力!今天,我们来聊聊数据分析的核心流程,拆 ...
2024-12-31提到数据分析,你脑海里可能会浮现出一群“数字控”抱着电脑,在海量数据里疯狂敲代码的画面。但事实是,数据分析并没有你想象的 ...
2024-12-31关于数据分析师是否会成为失业高危职业,近年来的讨论层出不穷。在这个快速变化的时代,技术进步让人既兴奋又不安。今天,我们从 ...
2024-12-30