一、项目介绍:
方法包括以下步骤
S1:将个体表现数据输入到数据库;
S2:建立学习者的学习表现数据库和性格特征数据库;
S3:建立学习者的学习表现数据模型和性格特征数据模型;
S4:使用数据算法计算学习表现数据;
S5:输出个体性格特征。
步骤(S1)中的个体表现数据为诸如以下类型且不局限于以下类型的个体表现:
旷课、请假、迟到、早退;
课堂纪律、上课说话、上课玩手机、上课吃东西、上课看与学科内容无关的书、上课期间随意进出、上课手机响铃、上课做其他科作业、上课睡觉、上课坐姿不端正;
课堂上抢答举手、表达清楚性、观点清晰性、内容正确性;
小组讨论时主题明确性、讨论气氛活跃性、是否组织者、是否积极发言;
实验前仪器样品状况确认与否、破损仪器数量、破损仪器时间、仪器破损上报情况、仪器赔偿、仪器整理情况、实验完成用时长短、实验过程操作规范程度、实验过程中的纪律遵守情况、实验后卫生打扫情况、原始实验数据准确度、原始实验数据有无抄袭现象、实验报告的质量;
预习、作业的完成的时间点,预习、作业的完成的时间段;
预习、作业的质量,预习、作业的次数;
作业诚信、考试诚信;
测验、考试成绩、考试用时;
当通过设备交互答题,使用鼠标、键盘、体感设备、触摸屏、模拟设备时;
完成的时间点的早晚、完成的时间段的长短、操作的频率的多少、重复的频率的多少、设备位移的长度长短、设备位移的速度大小、设备位移的精度大小、操作的质量高低;
当通过设备交互答题,使用语音输入设备时;
响度、音调、音品或音色、语速。
步骤(S2)中的学习表现数据库和性格特征数据库具有学生通过性格测验所获得的性格特征数据以及通过学习系统所获得学习数据,这些数据都是所获得的原始数据。其中,性格测验包含卡特尔16PF人格测验、大五人格测验,卡特尔16PF人格测验包含16个维度的性格特征,而大五人格测验包含五个维度的性格特征。
步骤(S3)中建立学习者的学习表现数据模型和性格特征数据模型,主要是通过学习表现与性格特征的原始数据,通过计算其中的相关系数,输出学习者的新的性格特征的稳定模型。
步骤(S4)中使用的数据数学算法为包含聚类分析算法(S41)、关联规则法(S42)、回归分析法(S43)、BP神经网络模型(S44)、决策树(S45)、支持向量机(S46)的数据挖掘算法。
采用聚类分析算法(S41)将学习者的表现数据类型进行相似性比较,将比较相似的个体性格特征归为同一组数据库,采用以下步骤:
(2)输入学习者的学习表现数据和性格特征的测试结果;
(3)计算学习表现数据类型与各个性格特征聚类中心之间的距离,使误差平方和局部最小,并将距离用统一量化的手段给出,把学习表现数据类型与性格特征之间距离小于阈值的分配给相应的性格特征聚类中心,得到的学习表现数据与性格特征之间的分配关系与距离;
(4)用新的数据重复(1)、(2)、(3)的操作,待相关系数稳定后,得到稳定的数学模型;
(5)然后将新的学习者的学习表现数据输入到性格特征评估系统,可得出新学习者的性格特征。
采用关联规则法(S42)将不同的性格特征关联起来,当个体表现出一种性格特征时,则可推断其他性格特征,其方法为:
补充用这种方法的核心步骤
采用回归分析法(S43)建立数学模型,用最小二乘法估计确定同类型的学习表现数据与某些性格特征之间的定量关系式,采用逐步回归、向前回归和向后回归方法计算某个学习表现数据与某个性格特征的相关性参数来判断某个学习表现数据与某个性格特征之间的影响是否显著。
采用BP神经网络法(S44)对所有的学习表现数据与性格特征综合分析,采用最速下降法,沿距离梯度下降的方向求解极小值,经过不断的迭代与修正得出所有的学习表现数据与性格特征之间存在的最短距离,最端距离代表与学习表现数据相关的性格特征。
采用决策树(S45)法对学习表现数据分类,将不同类型学习表现数据更清楚地表示出来。
采用步骤(S4)中的支持向量机(S46)算法计算出某一性格特征与其相关的学习表现数据所产生的“最短距离方式”,经过不断的迭代运算,得出性格特征相关性较强的学习表现数据。
有益的效果是:
使用本方法,性格特征评估系统可以使用新学习者的学习表现数据来评价其性格特征,从而对学生日后的发展进行科学指导,有利于教师把握学生的性格。
方法包括以下步骤:S1:将个体表现数据输入到数据库;S2:建立学习者的学习表现数据库和性格特征数据库;S3:建立学习者的学习表现数据模型和性格特征数据模型;S4:使用数据算法计算学习表现数据;S5:输出个体性格特征。
针对步骤S1,步骤(S1)中的个体表现数据为诸如以下类型且不局限于以下类型的个体表现:
旷课、请假、迟到、早退;
课堂纪律、上课说话、上课玩手机、上课吃东西、上课看与学科内容无关的书、上课期间随意进出、上课手机响铃、上课做其他科作业、上课睡觉、上课坐姿不端正;
课堂上抢答举手、表达清楚性、观点清晰性、内容正确性;
小组讨论时主题明确性、讨论气氛活跃性、是否组织者、是否积极发言;
实验前仪器样品状况确认与否、破损仪器数量、破损仪器时间、仪器破损上报情况、仪器赔偿、仪器整理情况、实验完成用时长短、实验过程操作规范程度、实验过程中的纪律遵守情况、实验后卫生打扫情况、原始实验数据准确度、原始实验数据有无抄袭现象、实验报告的质量;
预习、作业的完成的时间点,预习、作业的完成的时间段;
预习、作业的质量,预习、作业的次数;
作业诚信、考试诚信;
测验、考试成绩、考试用时;
当通过设备交互答题,使用鼠标、键盘、体感设备、触摸屏、模拟设备时;
完成的时间点的早晚、完成的时间段的长短、操作的频率的多少、重复的频率的多少、设备位移的长度长短、设备位移的速度大小、设备位移的精度大小、操作的质量高低;
当通过设备交互答题,使用语音输入设备时;
响度、音调、音品或音色、语速。
针对步骤S2,学习表现数据库和性格特征数据库的获得可以通过以下方式实现:在学习开始时,先对学习者进行常规的性格测验,获得学习者的性格特征,并将其储存进入数据库,然后让学习者使用学习系统,产生学习表现数据,也将其储存进入数据库,建立学习者的学习表现数据和性格特征数据库。其中,性格测验包含卡特尔16PF人格测验、大五人格测验,卡特尔16PF人格测验包含16个维度的性格特征,分别是因素A-乐群性、因素B-聪慧性、因素C-稳定性、因素E-恃强性、因素F-兴奋性、因素G-有恒性、因素H-敢为性、因素I-敏感性、因素L-怀疑性、因素M-幻想性、因素N-世故性、因素O-忧虑性、因素Q1--实验性、因素Q2--独立性、因素Q3--自律性、因素Q4--紧张性;而大五人格测验包含五个维度的性格特征,分别是外倾性、神经质或情绪稳定性、开放性、随和性、尽责性。
针对步骤S3,建立学习者的学习表现数据模型和性格特征数据模型可以通过以下方式实现:将学习者的学习表现数据与性格测评结果作为性格特征评估系统的训练集,性格特征评估系统使用训练集进行学习,调整各种类型的学习表现数据与不同类型的性格特征的相关系数,产生新的各种类型的学习表现数据与不同类型的性格特征的相关关系与相关系数,形成学习表现数据与性格特征相互关系的稳定模型,并将其储存进入数据库。当相关系数稳定后,性格特征评估系统根据新学习者的学习表现数据输出新学习者的性格特征。
针对步骤S4,的数据数学算法为包含聚类分析算法S41、关联规则法S42、回归分析法S43、BP神经网络模型S44、支持向量机S46的数据挖掘算法,实施步骤可以通过以下方式实现:
针对步骤S41,在进行聚类分析算法运算时,聚类分析算法将学习者的表现数据类型进行相似性比较,将比较相似的个体性格特征归为同一组数据库,采用以下步骤:
(2)输入学习者的学习表现数据和性格特征的测试结果;
(3)计算学习表现数据类型与各个性格特征聚类中心之间的距离,使误差平方和局部最小,并将距离用统一量化的手段给出,把学习表现数据类型与性格特征之间距离小于阈值的分配给相应的性格特征聚类中心,得到的学习表现数据与性格特征之间的分配关系与距离;
(4)用新的数据重复(1)、(2)、(3)的操作,待相关系数稳定后,得到稳定的数学模型;
(5)然后将新的学习者的学习表现数据输入到性格特征评估系统,可得出新学习者的性格特征。
比如:首先计算学习表现数据中迟到的次数,早退的次数,破损仪器数量多少等与各类性格特征之间的距离,其中对于“敢为性”这种性格来说只有迟到的次数,早退的次数,损仪器数量多少,作业诚信度,上课玩手机,上课睡觉,仪器赔偿及时与否之间的距离小于阈值,所以认定“敢为性”只与这些学习表现数据存在相关性关联,并且根据算出的距离按照比例得到对于“敢为性”迟到次数占25%,早退的次数占20%,作业诚信度占5%,上课玩手机占8%,损坏仪器数量多少占13%,仪器赔偿及时与否占15%,上课睡觉12%,其余学习表现数据均小于2%的阈值,所以不作为考虑因素。
同理,对于迟到的次数这一学习表现数据,计算其与各类性格特征之间的距离,其中对于迟到次数这一学习表现数据来说,只有敢为性,恃强性,稳定性,有恒性,实验性,自律性之间的距离小于阈值,所以认为迟到次数只与这些性格特征有关,并且根据算出的距离按照比例得到对于迟到次数这一学习表现数据得到敢为性占35%,恃强性占25%,稳定性占15%,有恒性8%,实验性占5%,自律性6%,其余性格特征均小于2%的阈值,所以不作为考虑因素。
以此为例可以找到任意一个学习表现数据与其余性格特征之间的相关性关系,也可以找到任意一个性格特征与其余学习表现数据之间的相关性关系。
针对步骤S42,可以通过以下方式实现:关联规则法将不同的性格特征关联起来,当个体表现出一种性格特征时,则可推断其他性格特征,关联规则法数据之间的简单的联系规则,是指数据之间的相互依赖关系,比如性格特征敢为性与迟到的次数,早退的次数,损仪器数量多少,作业诚信度,上课玩手机,上课睡觉,仪器赔偿及时与否这些学习表现数据有着很强的关联特征,也就是当这些学习表现数据有着很高的特点是,则被测者是有着敢为性的性格特征的。对于迟到的次数这一学习表现数据,与其相关联的性格特征为敢为性,恃强性,稳定性,有恒性,实验性,自律性。当被测者迟到次数较多时,我们认为他的性格特征与敢为性,恃强性,稳定性,有恒性,实验性,自律性有关。
补充用这种方法的核心步骤
针对步骤S43,可以通过以下方式实现,首先数学模型,用最小二乘法估计确定同类型的学习表现数据与某些性格特征之间的定量关系式,采用逐步回归、向前回归和向后回归方法计算某个学习表现数据与某个性格特征的相关性参数来判断某个学习表现数据与某个性格特征之间的影响是否显著。具体地来说,利用一组同类型学习表现数据,确定其与某些性格特征之间的定量关系式,即建立数学模型用最小二乘法估计其中的相关性参数;在许多学习表现数据共同影响着一个性格特征的关系中,用逐步回归、向前回归和向后回归方法判断哪个(或哪些)学习表现数据的影响是显著的,哪些学习表现数据的影响是不显著的,将影响显著的学习表现数据带入模型中,而剔除影响不显著的变量;用新的数据对这些关系式的可信程度进行检验,检验结果在误差允许范围内即可利用所求的关系式对新的学习表现数据得到的性格特征进行预测或控制。
比如:对于无故旷课,多次请假,迟到,早退,上课说话,上课玩手机,上课吃东西,上课看与学科内容无关的书,上课睡觉,上课坐姿不端正,预习答题状况是否良好,答题用时长短,预习答题时间的早晚,实验前仪器样品状况确认与否,破损仪器数量多少,破损仪器时间,仪器破损上报情况,仪器赔偿及时与否,仪器归放情况,实验完成用时长短,实验过程操作规范程度,实验过程中的纪律遵守情况,试验后卫生打扫情况,原始实验数据准确度,原始实验数据有无抄袭现象,实验报告的质量高低,作业成绩,作业用时,上交时间,上交次数,作业诚信,考试成绩,考试用时,考试诚信等学习表现数据,这些共同影响着敢为性这一性格特征,将这些数据用逐步回归、向前回归和向后回归方法计算这些学习表现数据与敢为性这一性格特征的相关性参数,从而判断这些学习表现数据与敢为性这一性格特征之间的影响是否显著,经计算相关性参数,发现只有迟到的次数,早退的次数,损仪器数量多少,作业诚信度,上课玩手机,上课睡觉,仪器赔偿及时与否存在明显的相关关系,其余学习表现数据并未有显著相关关系,所以仅考虑迟到的次数,早退的次数,损仪器数量多少,作业诚信度,上课玩手机,上课睡觉,仪器赔偿及时与否与敢为性这一性格特征之间的相关性。同理,我们可以做出任意一个性格特征所对应的与其显著的学习表现数据。
针对步骤S44,BP神经网络法对所有的学习表现数据与性格特征综合分析,采用最速下降法,沿距离梯度下降的方向求解极小值,经过不断的迭代与修正得出所有的学习表现数据与性格特征之间存在的最短距离,最端距离代表与学习表现数据相关的性格特征。具体地来说,将所有的学习表现数据与性格特征综合分析,由之前算法可以得到所有的数据与特征之间存在的距离,并且相关性越近,距离越短,所以在综合分析时,我们采用最速下降法,沿距离梯度下降的方向求解极小值,经过不断的迭代与修正得到对于某一性格特征与其相关的学习表现数据所产生的“最短距离方式”,也可以求出对与某一学习表现数据与其对应的性格特征产生的“最短距离方式”,比如对于敢为性,所产生的最短距离代表的学习表现数据为迟到的次数,早退的次数,损仪器数量多少,作业诚信度,上课玩手机,上课睡觉,仪器赔偿及时与否。对于迟到的次数这一学习表现数据,所产生的最短距离代表的性格特征为敢为性,恃强性,稳定性,有恒性,实验性,自律性。
针对步骤S45,可以通过以下方式实现,比如,我们已经得到各个学习表现数据与性格特征之间的概率,判断取哪些学习表现数据与其中某一个性格特征合适。我们想得到独立性相关的学习表现数据,则独立性为决策点,这些学习表现数据为状态节点,并标明每一数据特征与其之间的概率,用递归式对数进行修剪,得到最优的路径。我们得到与独立性相关的学习表现数据为早退,上课看与学科内容无关的书,上课睡觉,上课坐姿不端正,预习答题时间的早晚,仪器归放情况,实验过程操作规范程度这些学习表现数据有着最优的关系,其将学习表现数据分类,将不同类型学习表现数据更清楚地表示出来。
比如这样的:
针对步骤S46,可以通过以下方式实现,其能够建立起与相关的学习算法有关的监督学习模型,可以根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折中,以求获得最好的推广能力。比如:我们有很多学习表现数据,以及提炼出的性格特征,确定他们之间的映射关系,与神经网络类似,计算某一性格特征与其相关的学习表现数据所产生的“最短距离方式”,经过不断的迭代运算,最终得到比如对于独立性这一性格特征来说,与其相关性较强的学习表现数据为早退,上课看与学科内容无关的书,上课睡觉,上课坐姿不端正,预习答题时间的早晚,仪器归放情况,实验过程操作规范程度。
二、非负矩阵分解
把一个学期10名同学的请假、旷课、迟到、上课说话和上课睡觉的数据汇总为一个训练集,统计数据如表1所示:
表1训练集
问题描述:就是建立100个不同类型的定量参数和10个另外类型的定量参数的相关关系和强度。那100个参数之间和那10个参数是多对多关系。但是不知道具体的相关关系和强度。有数据集用来学习和验证,相关关系和强度稳定后进行应用。
前五列数据属于100个不同类型的定量参数,后四列数据属于10个另外类型的定量参数,找前五列数据和后四列数据的相关关系和强度。
要求:进行一个聚类分析。只需要写清过程,不需要具体计算。
问题分析:根据问题描述,可以使用非负矩阵分解算法来解决这个问题。
具体分析过程:
1.非负矩阵分解算法发展历史
它是一种新的矩阵分解算法,最早是1994年由Paatero和Tapper等人提出的,当时这个算法叫正矩阵分解,直到1999年, Lee和Seung在Nature上发表了他们对矩阵分解的研究,才逐渐引起广大研究学者的兴趣,发展到现在,矩阵分解方法已经应用到很多领域。
2.矩阵分解理论
假定给定一个原数据,用非负的数据矩阵(差异矩阵)进行表示,将其分解为两个非负矩阵(基矩阵)和(系数矩阵)的乘积,并且乘积要尽可能的逼近原来的矩阵,即(k << m, n)。非负矩阵分解模型可以表示为以下的优化问题:
需要使用一下迭代公式来求得W和H
3.非负矩阵分解算法应用到以上问题中
(1)首先是原始矩阵的构造:在这个问题中,我们构建矩阵数据矩阵(属性-对象矩阵),10行5列的数据矩阵。如下所示:
其中,一行代表一名学生(对象),一列代表一个属性(是否请假、无故旷课、迟到、上课说话、上课睡觉)。
(2)对这个矩阵进行矩阵分解,其中k值选择为4,W和H用随机初始化,其中每个值都在0-1之间。W和H按照上面的迭代公式进行求解,迭代次数设置为1000。
(3)矩阵分解之后,用矩阵W和H进行聚类分析。
迭代1000次之后,得到基矩阵和系数矩阵
基矩阵:
由系数矩阵可得到前五列和后四列关系,权重可以看作是强度。
三、来源于创青春比赛
1、apriori关联:
>library(arules)
>xingge=read.csv("guanlian.csv",header=T)
#值得注意的是,"guanlian.csv"从一个数值矩阵转 #换为0-1矩阵,再从0-1矩阵转为逻辑型矩阵,即 #0:FALSE,1:TRUE。
[1]"QJ" "KK" "CD" "SH" "SJ""Q1"
>data(list=xingge)
Therewere 30 warnings (use warnings() to see them)
>mode(xingge)
[1]"list"
>rules=apriori(xingge,parameter=list(support=0.3,confidence=0.4))
Parameterspecification:
confidence minval smax aremaval originalSupport maxtime support minlen
0.40.11 none FALSETRUE50.31
maxlen targetext
10rules FALSE
Algorithmiccontrol:
filter tree heap memopt load sort verbose
0.1 TRUE TRUEFALSE TRUE2TRUE
Absoluteminimum support count: 3
set itemappearances ...[0 item(s)] done [0.00s].
settransactions ...[9 item(s), 10 transaction(s)] done [0.00s].
sortingand recoding items ... [9 item(s)] done [0.00s].
creatingtransaction tree ... done [0.00s].
checkingsubsets of size 1 2 3 4 5 6 done [0.00s].
writing... [320 rule(s)] done [0.00s].
creatingS4 object... done [0.00s].
>summary(rules)
set of320 rules
rulelength distribution (lhs + rhs):sizes
123456
748108 106456
Min. 1st Qu.MedianMean 3rd Qu.Max.
1.0003.0003.0003.4754.0006.000
summaryof quality measures:
supportconfidencelift
Min.:0.3000Min.:0.4000Min.:0.8163
1st Qu.:0.30001st Qu.:0.69171st Qu.:1.0000
Median :0.4000Median :1.0000Median :1.0000
Mean:0.4363Mean:0.8366Mean:1.0489
3rd Qu.:0.50003rd Qu.:1.00003rd Qu.:1.0179
Max.:1.0000Max.:1.0000Max.:1.4286
mininginfo:
data ntransactions support confidence
xingge100.30.4
>frequentsets=eclat(xingge,parameter=list(support=0.3,maxlen=10))
Eclat
parameterspecification:
tidLists support minlen maxlentargetext
FALSE0.3110 frequent itemsets FALSE
algorithmiccontrol:
sparse sort verbose
7-2TRUE
Absoluteminimum support count: 3
createitemset ...
settransactions ...[9 item(s), 10 transaction(s)] done [0.00s].
sortingand recoding items ... [9 item(s)] done [0.00s].
creatingbit matrix ... [9 row(s), 10 column(s)] done [0.00s].
writing... [111 set(s)] done [0.00s].
CreatingS4 object... done [0.00s].
>inspect(frequentsets[1:10])
itemssupport
[1]{QJ=TURE,KK=TURE,CD=TURE,SH=TURE,Q1=TURE} 0.3
[2]{QJ=TURE,KK=TURE,SH=TURE,Q1=TURE}0.3
[3]{KK=TURE,CD=TURE,SH=TURE,Q1=TURE}0.3
[4]{QJ=TURE,KK=TURE,CD=TURE,Q1=TURE}0.3
[5]{QJ=TURE,KK=TURE,Q1=TURE}0.3
[6]{KK=TURE,CD=TURE,Q1=TURE}0.3
[7]{KK=TURE,SH=TURE,Q1=TURE}0.3
[8]{QJ=TURE,CD=TURE,SH=TURE,Q1=TURE}0.3
[9]{QJ=TURE,SH=TURE,Q1=TURE}0.3
[10] {CD=TURE,SH=TURE,Q1=TURE}0.3
2、Bayes
>data<-matrix(c("A1","B2","B3","B4","B5","no",
+"B1","A2","B3","B4","B5","no",
+"B1","B2","B3","B4","A5","no",
+"B1","B2","B3","A4","B5","no"),byrow=TRUE,
+nrow=4,ncol=6)
> data
[,1] [,2] [,3] [,4] [,5][,6]
[1,] "A1" "B2" "B3" "B4""B5" "no"
[2,] "B1" "A2" "B3" "B4""B5" "no"
[3,] "B1" "B2" "B3" "B4""A5" "no"
[4,] "B1" "B2" "B3" "A4""B5" "no"
> library("e1071")
> library("foreign")
>prior.yes=sum(data[,6]=="yes")/length(data[,6])
> prior.yes
[1] 0
>prior.no=sum(data[,6]=="no")/length(data[,6])
> prior.no
[1] 1
(第一种函数)
> naive.bayes.prediction<-function(condition.vec){
+G.yes<-sum((data[,1]==condition.vec[1])&(data[,5]=="yes"))/sum(data[,5]=="yes")*
+sum((data[,1]==condition.vec[2])&(data[,5]=="yes"))/sum(data[,5]=="yes")*
+sum((data[,1]==condition.vec[3])&(data[,5]=="yes"))/sum(data[,5]=="yes")*
+sum((data[,1]==condition.vec[4])&(data[,5]=="yes"))/sum(data[,5]=="yes")*
+sum((data[,1]==condition.vec[5])&(data[,5]=="yes"))/sum(data[,5]=="yes")*
+prior.yes
+G.no<-sum((data[,1]==condition.vec[1])&(data[,5]=="no"))/sum(data[,5]=="no")*
+sum((data[,1]==condition.vec[2])&(data[,5]=="no"))/sum(data[,5]=="no")*
+sum((data[,1]==condition.vec[3])&(data[,5]=="no"))/sum(data[,5]=="no")*
+sum((data[,1]==condition.vec[4])&(data[,5]=="no"))/sum(data[,5]=="no")*
+sum((data[,1]==condition.vec[5])&(data[,5]=="no"))/sum(data[,5]=="no")*
+prior.no
+return(list(post.pr.yes=G.yes,post.pr.no=G.no,prediction=ifelse(G.yes>=G.yes,"yes","no")))
+}
>naive.bayes.prediction(c("A1","B2","B3","B4","B5"))
$post.pr.yes
[1] NaN
$post.pr.no
[1] NaN
$prediction
[1] NA
>naive.bayes.prediction(c("A1","A2","A3","A4","A5"))
$post.pr.yes
[1] NaN
$post.pr.no
[1] NaN
$prediction
[1] NA
(第二种函数)
>naive.bayes.prediction<-function(condition.vec){
+ + +G.yes<-sum((data[,1]=="A1")&(data[,5]=="yes"))/sum(data[,5]=="yes")*
+ + +sum((data[,1]=="A2")&(data[,5]=="yes"))/sum(data[,5]=="yes")*
+ + +sum((data[,1]=="A3")&(data[,5]=="yes"))/sum(data[,5]=="yes")*
+ + +sum((data[,1]=="A4")&(data[,5]=="yes"))/sum(data[,5]=="yes")*
+ + +sum((data[,1]=="A5")&(data[,5]=="yes"))/sum(data[,5]=="yes")*
+ + +prior.yes
+ + +G.no<-sum((data[,1]=="B1")&(data[,5]=="no"))/sum(data[,5]=="no")*
+ + +sum((data[,1]=="B2")&(data[,5]=="no"))/sum(data[,5]=="no")*
+ + +sum((data[,1]=="B3")&(data[,5]=="no"))/sum(data[,5]=="no")*
+ + +sum((data[,1]=="B4")&(data[,5]=="no"))/sum(data[,5]=="no")*
+ + +sum((data[,1]=="B5")&(data[,5]=="no"))/sum(data[,5]=="no")*
+ + +prior.no
+ + +return(list(post.pr.yes=G.yes,post.pr.no=G.no,prediction=ifelse(G.yes>=G.yes,"yes","no")))
+}
>naive.bayes.prediction(c("A1","A2","A3","A4","A5"))
Error in ++G.yes <- sum((data[, 1] == "A1") &(data[, 5] == "yes"))/sum(data[,:
找不到对象'G.yes'
>naive.bayes.prediction(c("A1","B2","B3","B4","B5"))
Error in ++G.yes <- sum((data[, 1] == "A1") &(data[, 5] == "yes"))/sum(data[,:
找不到对象'G.yes'
3、K-means:
> data(iris)
> head(iris,n=6)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
15.13.51.40.2setosa
24.93.01.40.2setosa
34.73.21.30.2setosa
44.63.11.50.2setosa
55.03.61.40.2setosa
65.43.91.70.4setosa
> install.packages("fpc")
> library(fpc)#估计轮廓系数
>norm<-function(x){(x-mean(x))/(sqry(var(x)))}
>norm<-function(x){(x-mean(x))/(sqrt(var(x)))}
> raw.data<-iris[,1:4]
>norm.data<-data.frame(sl=norm(raw.data[,1]),sw=(raw.data[,2]),pl=(raw.data[,3]),pw=(raw.data[,4]))
>k<-2:10
> round<-40
> rst<-sapply(k,function(i)#轮廓系数
+ {
+ print(paste("k=",i))
+ mean(sapply(1:round,function(r){
+ print(paste("Round",r))
+ result<-kmeans(norm.data,i)
+stats<-cluster.stats(dist(norm.data),result$cluster)
+ stats$avg.silwidth
+ }))
+ })
[1] "k= 2"
[1] "Round 1"
[1] "Round 2"
[1] "Round 3"
[1] "Round 4"
[1] "Round 5"
[1] "Round 6"
[1] "Round 7"
[1] "Round 8"
[1] "Round 9"
[1] "Round 10"
[1] "Round 11"
[1] "Round 12"
[1] "Round 13"
[1] "Round 14"
[1] "Round 15"
[1] "Round 16"
[1] "Round 17"
[1] "Round 18"
[1] "Round 19"
[1] "Round 20"
[1] "Round 21"
[1] "Round 22"
[1] "Round 23"
[1] "Round 24"
[1] "Round 25"
[1] "Round 26"
[1] "Round 27"
[1] "Round 28"
[1] "Round 29"
[1] "Round 30"
[1] "Round 31"
…….
> plot(k,rst,type='l',main='轮廓系数与k的关系',ylab='轮廓系数')
> plot(k,rst)
> old.par<-par(mfrow=c(1,2))
> k=2
> clu<-kmeans(norm.data,k)
>mds=cmdscale(dist(norm.data,method="euclidean"))
> plot(mds,col=clu$cluster,main='kmeans聚类k=2',pch=19)
> plot(mds,col=iris$Species,main='原始聚类',pch=19)
> par(old.par)
数据分析咨询请扫描二维码
数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21数据分析作为一个备受追捧的职业领域,吸引着越来越多的女性加入其中。对于女生而言,在选择成为一名数据分析师时,行业选择至关 ...
2024-11-21大数据技术专业主要学习计算机科学、数学、统计学和信息技术等领域的基础理论和技能,旨在培养具备大数据处理、分析和应用能力的 ...
2024-11-21《Python数据分析极简入门》 第2节 3 Pandas数据查看 这里我们创建一个DataFrame命名为df: importnumpyasnpi ...
2024-11-21越老越吃香的行业主要集中在需要长时间经验积累和专业知识的领域。这些行业通常知识更新换代较慢,因此随着年龄的增长,从业者能 ...
2024-11-20数据导入 使用pandas库的read_csv()函数读取CSV文件或使用read_excel()函数读取Excel文件。 支持处理不同格式数据,可指定分隔 ...
2024-11-20大数据与会计专业是一门结合了大数据分析技术和会计财务理论知识的新型复合型学科,旨在培养能够适应现代会计业务新特征的高层次 ...
2024-11-20要成为一名数据分析师,需要掌握一系列硬技能和软技能。以下是成为数据分析师所需的关键技能: 统计学基础 理解基本的统计概念 ...
2024-11-20是的,Python可以用于数据分析。Python在数据分析领域非常流行,因为它拥有丰富的库和工具,能够高效地处理从数据清洗到可视化的 ...
2024-11-20在这个数据驱动的时代,数据分析师的角色变得愈发不可或缺。他们承担着帮助企业从数据中提取有价值信息的责任,而这些信息可以大 ...
2024-11-20数据分析作为现代信息时代的支柱之一,已经成为各行业不可或缺的工具。无论是在商业、科研还是日常决策中,数据分析都扮演着至关 ...
2024-11-20数字化转型已成为当今商业世界的热点话题。它不仅代表着技术的提升,还涉及企业业务流程、组织结构和文化的深层次变革。理解数字 ...
2024-11-20在现代社会的快速变迁中,选择一个具有长期增长潜力的行业显得至关重要。了解未来发展前景好的行业不仅能帮助我们进行职业选择, ...
2024-11-20统计学专业的就业方向和前景非常广泛且充满机遇。随着大数据、人工智能等技术的快速发展,统计学的重要性进一步凸显,相关人才的 ...
2024-11-20