R语言-组间差异的非参数检验-CDA数据分析师官网

R语言-组间差异的非参数检验

2017-05-31

R语言-组间差异的非参数检验

7.5 组间差异的非参数检验
如果数据无法满足t检验或ANOVA的参数假设，可以转而使用非参数方法。举例来说，若结果变量在本质上就严重偏倚或呈现有序关系，那么你可能会希望使用本节中的方法。

7.5.1 两组的比较
若两组数据独立，可以使用Wilcoxon秩和检验（更广为人知的名字是Mann–Whitney U检验）来评估观测是否是从相同的概率分布中抽得的（即，在一个总体中获得更高得分的概率是否比另一个总体要大）。调用格式为：

其中的y是数值型变量，而x是一个二分变量。调用格式或为：

其中的y1和y2为各组的结果变量。可选参数data的取值为一个包含了这些变量的矩阵或数据框。默认进行一个双侧检验。你可以添加参数exact来进行精确检验，指定alternative="less"或alternative="greater"进行有方向的检验。
如果你使用Mann–Whitney U检验回答上一节中关于监禁率的问题，将得到这些结果：

你可以再次拒绝南方各州和非南方各州监禁率相同的假设（p < 0.001）。Wilcoxon符号秩检验是非独立样本t检验的一种非参数替代方法。它适用于两组成对数据和无法保证正态性假设的情境。调用格式与Mann–Whitney U检验完全相同，不过还可以添加参数paired=TRUE。让我们用它解答上一节中的失业率问题：

你再次得到了与配对t检验相同的结论。在本例中，含参的t检验和与其作用相同的非参数检验得到了相同的结论。当t检验的假设合理时，参数检验的功效更强（更容易发现存在的差异）。而非参数检验在假设非常不合理时（如对于等级有序数据）更适用。

7.5.2 多于两组的比较
在要比较的组数多于两个时，必须转而寻求其他方法。考虑7.4节中的state.x77数据集。它包含了美国各州的人口、收入、文盲率、预期寿命、谋杀率和高中毕业率数据。如果你想比较美国四个地区（东北部、南部、中北部和西部）的文盲率，应该怎么做呢？这称为单向设计（one-way design），我们可以使用参数或非参数的方法来解决这个问题。如果无法满足ANOVA设计的假设，那么可以使用非参数方法来评估组间的差异。如果各组独立，则Kruskal—Wallis检验将是一种实用的方法。如果各组不独立（如重复测量设计或随机区组设计），那么Friedman检验会更合适。

Kruskal–Wallis检验的调用格式为：

其中的y是一个数值型结果变量， A是一个拥有两个或更多水平的分组变量（grouping variable）。（若有两个水平，则它与Mann–Whitney U检验等价。）而Friedman检验的调用格式为：

其中的y是数值型结果变量， A是一个分组变量，而B是一个用以认定匹配观测的区组变量（blocking variable）。在以上两例中， data皆为可选参数，它指定了包含这些变量的矩阵或数据框。
让我们利用Kruskal–Wallis检验回答文盲率的问题。首先，你必须将地区的名称添加到数据集中。这些信息包含在随R基础安装分发的state.region数据集中。
现在就可以进行检验了：

显著性检验的结果意味着美国四个地区的文盲率各不相同（p <0.001）。虽然你可以拒绝不存在差异的原假设，但这个检验并没有告诉你哪些地区显著地与其他地区不同。要回答这个问题，你可以使用Mann–Whitney U检验每次比较两组数据。一种更为优雅的方法是在控制犯第一类错误的概率（发现一个事实上并不存在的差异的概率）的前提下，执行可以同步进行的多组比较，这样可以直接完成所有组之间的成对比较。 npmc包提供了所需要的非参数多组比较程序。
说实话，我将本章标题中基本的定义拓展了不止一点点，但由于在这里讲非常合适，所以希望你能够容忍我的做法。第一步，请先安装npmc包。此包中的npmc()函数接受的输入为一个两列的数据框，其中一列名为var（因变量），另一列名为class（分组变量）。代码清单7-20中包含了可以用来完成计算的代码。

调用了npmc的语句生成了六对统计比较结果（东北部对南部、东北部对中北部、东北部对西部、南部对中北部、南部对西部，以及中北部对西部）。可以从双侧的p值（p.value.2s）看出南部与其他三个地区显著不同，而其他三个地区之间并没有什么不同。在处可以看到南部的文盲率中间值更高。注意， npmc在计算积分时使用了随机数，所以每次计算的结果会有轻微的不同。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

R语言

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

R语言-组间差异的非参数检验

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...