在MATLAB中进行基于SVM的数据分析
MATLAB除了可以被用来进行信号处理之外,还可以用来完成一些数据挖掘任务。而说到数据挖掘,你脑海里一定会闪现过许多熟悉的算法,例如决策树、朴素贝叶斯、逻辑回归,以及支持向量机(SVM)等等。下面我们就以SVM为例来看看利用MATLAB进行数据挖掘是一种怎样的体验。
MATLAB中用来进行基于SVM的数据挖掘的核心函数是 svmclassify() 和 svmtrain()。从函数名就能很容易地看出来,后者是用来进行模型训练的,而前者则是用后者训练出来的模型来对数据进行分类。首先我们来看看线性可分的情况,后续我们还会讨论更复杂的线性不可分的例子。
这里所使用的数据是费希尔的鸢尾花数据,我们首先导入数据(数据一共有150行,取前2/3作为训练数据,对应的类别是setosa和versicolor)
[plain] view plain copy
>> load fisheriris
>> xdata = meas(1:100,3:4);
>> group = species(1:100);
函数 svmtrain()的调用格式如下:
SVMStruct = svmtrain(Training,Group,Name,Value)
其中Training是feature向量,Group表示分属之类别。Name和Value是可选参数(也就是可以不写),而且必须成对使用,其中Name表示参数名,而Value则对应相应的参数取值。由于Name-Value的可取参数对非常之多,我们这里不一一列举(有需要的读者可以参阅MATLAB的帮助文档以了解更多),仅仅给出两个例子:比如,如果把Name置为'showplot',就可以通过紧跟其后的Value取值来控制是否将训练模型绘制成图,默认是'False',表示不会图。另外一个有用的参数是'kernel_function',如果你对SVM算法比较了解的话应该知道,核函数主要是通过空间转换来将原本线性不可分的数据,转换到另外一个线性可分的空间上,后续我们还会给出具体例子。
下面的代码就可以训练得到一个分类模型:
[plain] view plain copy
>> svmStruct = svmtrain(xdata,group,'ShowPlot',true);
上述代码的执行结果如下图所示(注意因为我们为参数'showplot'赋值为True,所以系统会绘制出图):
下面我们用svmclassify() 来测试一下模型的分类能力:
[plain] view plain copy
<span style="font-size:18px;">>> testdata = [4 1.5;1.8 0.38];
>> species = svmclassify(svmStruct,testdata,'ShowPlot',true)
species =
'versicolor'
'setosa'</span>
如果觉得文字表述的结果不够形象,还可以用图形来表示:
[plain] view plain copy
<span style="font-size:18px;">>> hold on;
>> plot(testdata(:,1),testdata(:,2),'ro','MarkerSize',12);
>> hold off</span>
上述代码的执行结果如图所示(其中被圆周圈起来的就是我们引入的测试数据):
如果数据是线性不可分的,SVM是否能够应对呢?来看下面的例子,首先,我们生成两组数据data1和data2
[plain] view plain copy
>> rng(1); % For reproducibility
r = sqrt(rand(100,1)); % Radius
t = 2*pi*rand(100,1); % Angle
data1 = [r.*cos(t), r.*sin(t)]; % Points
>> r2 = sqrt(3*rand(100,1)+1); % Radius
t2 = 2*pi*rand(100,1); % Angle
data2 = [r2.*cos(t2), r2.*sin(t2)]; % points
data1和data2是线性不可分的。用图形来表示或许更加一目了然,所以我们来绘图:
[plain] view plain copy
>> figure;
plot(data1(:,1),data1(:,2),'r.','MarkerSize',15)
hold on
plot(data2(:,1),data2(:,2),'b.','MarkerSize',15)
ezpolar(@(x)1);ezpolar(@(x)2);
axis equal
hold off
上述代码的执行结果如下:
然后我们把两组数据组织到一起,并加上分类标签‘+1’和‘-1’。
[plain] view plain copy
>> data3 = [data1;data2];
theclass = ones(200,1);
theclass(1:100) = -1;
然后分别用高斯核函数与多项式核函数来进行空间转换,并在此基础上进行基于SVM的分类:
[plain] view plain copy
>> svmModel = svmtrain(data3, theclass, 'kernel_function','rbf','ShowPlot',true);
>> svmModel = svmtrain(data3, theclass, 'kernel_function','polynomial','ShowPlot',true);
下图基于高斯核函数的SVM分类结果:
下图基于多项式核函数的SVM分类结果:
可见原本不可分的数据,现在已经被成功分类了。
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16