R语言-组间差异的非参数检验
7.5 组间差异的非参数检验
如果数据无法满足t检验或ANOVA的参数假设,可以转而使用非参数方法。举例来说,若结果变量在本质上就严重偏倚或呈现有序关系,那么你可能会希望使用本节中的方法。
7.5.1 两组的比较
若两组数据独立,可以使用Wilcoxon秩和检验(更广为人知的名字是Mann–Whitney U检验)来评估观测是否是从相同的概率分布中抽得的(即,在一个总体中获得更高得分的概率是否比另一个总体要大)。调用格式为:
其中的y是数值型变量,而x是一个二分变量。调用格式或为:
其中的y1和y2为各组的结果变量。
可选参数data的取值为一个包含了这些变量的矩阵或数据框。
默认进行一个双侧检验。你可以添加参数exact来进行精确检验,指定alternative="less"或alternative="greater"进行有方向的检验。
如果你使用Mann–Whitney U检验回答上一节中关于监禁率的问题,将得到这些结果:
你可以再次拒绝南方各州和非南方各州监禁率相同的假设(p < 0.001)。Wilcoxon符号秩检验是非独立样本t检验的一种非参数替代方法。它适用于两组成对数据和无法保证正态性假设的情境。调用格式与Mann–Whitney U检验完全相同,不过还可以添加参数paired=TRUE。让我们用它解答上一节中的失业率问题:
你再次得到了与配对t检验相同的结论。在本例中,含参的t检验和与其作用相同的非参数检验得到了相同的结论。当t检验的假设合理时,参数检验的功效更强(更容易发现存在的差异)。而非参数检验在假设非常不合理时(如对于等级有序数据)更适用。
7.5.2 多于两组的比较
在要比较的组数多于两个时,必须转而寻求其他方法。考虑7.4节中的state.x77数据集。它包含了美国各州的人口、收入、文盲率、预期寿命、谋杀率和高中毕业率数据。如果你想比较美国四个地区(东北部、南部、中北部和西部)的文盲率,应该怎么做呢?这称为单向设计(one-way design),我们可以使用参数或非参数的方法来解决这个问题。如果无法满足ANOVA设计的假设,那么可以使用非参数方法来评估组间的差异。如果各组独立,则Kruskal—Wallis检验将是一种实用的方法。如果各组不独立(如重复测量设计或随机区组设计),那么Friedman检验会更合适。
Kruskal–Wallis检验的调用格式为:
其中的y是一个数值型结果变量, A是一个拥有两个或更多水平的分组变量(grouping variable)。(若有两个水平,则它与Mann–Whitney U检验等价。)而Friedman检验的调用格式为:
其中的y是数值型结果变量, A是一个分组变量, 而B是一个用以认定匹配观测的区组变量 (blocking variable) 。在以上两例中, data皆为可选参数,它指定了包含这些变量的矩阵或数据框。
让我们利用Kruskal–Wallis检验回答文盲率的问题。首先,你必须将地区的名称添加到数据集中。这些信息包含在随R基础安装分发的state.region数据集中。
现在就可以进行检验了:
显著性检验的结果意味着美国四个地区的文盲率各不相同(p
<0.001)。虽然你可以拒绝不存在差异的原假设,但这个检验并没有告诉你哪些地区显著地与其他地区不同。要回答这个问题,你可以使用Mann–Whitney
U检验每次比较两组数据。一种更为优雅的方法是在控制犯第一类错误的概率(发现一个事实上并不存在的差异的概率)的前提下,执行可以同步进行的多组比较,这样可以直接完成所有组之间的成对比较。
npmc包提供了所需要的非参数多组比较程序。
说实话,我将本章标题中基本的定义拓展了不止一点点,但由于在这里讲非常合适,所以希望你能够容忍我的做法。第一步,请先安装npmc包。此包中的npmc()函数接受的输入为一个两列的数据框,其中一列名为var(因变量),另一列名为class(分组变量)。代码清单7-20中包含了可以用来完成计算的代码。
调用了npmc的语句生成了六对统计比较结果(东北部对南部、东北部对中北部、东北部对西部、南部对中北部、南部对西部,以及中北部对西部) 。可以从双侧的p值(p.value.2s)看出南部与其他三个地区显著不同,而其他三个地区之间并没有什么不同。在 处可以看到南部的文盲率中间值更高。注意, npmc在计算积分时使用了随机数,所以每次计算的结果会有轻微的不同。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
如何构建数据分析整体框架? 要让数据分析发挥其最大效能,建立一个清晰、完善的整体框架至关重要。今天,就让我们一同深入探讨 ...
2024-12-27AI来了,数分人也可以很省力,今天给大家介绍7个AI+数据分析工具,建议收藏。 01酷表 EXCEL 网址:https://chatexcel.com/ 这是 ...
2024-12-26一个好的数据分析模型不仅能使分析具备条理性和逻辑性,而且还更具备结构化和体系化,并保证分析结果的有效性和准确性。好的数据 ...
2024-12-26当下,AI 的发展堪称狂飙猛进。从 ChatGPT 横空出世到各种大语言模型(LLM)接连上线,似乎每个人的朋友圈都在讨论 AI 会不会“ ...
2024-12-26数据分析师这个职业已经成为了职场中的“香饽饽”,无论是互联网公司还是传统行业,都离不开数据支持。想成为一名优秀的数据分析 ...
2024-12-26在数据驱动决策成为商业常态的今天,数据分析师这一职业正迎来前所未有的机遇与挑战。很多希望转行或初入职场的人士不禁询问:数 ...
2024-12-25数据分析师,这一近年来炙手可热的职业,吸引了大量求职者的注意。凭借在大数据时代中的关键作用,数据分析师不仅需要具备处理数 ...
2024-12-25在当今数字化变革的浪潮中,数据分析师这一职业正迎来前所未有的发展机遇。回想我自己初入数据分析行业时,那种既兴奋又略显谨慎 ...
2024-12-25在当今信息爆炸的时代,数据已经像空气一样无处不在,而数据分析则是解锁这些信息宝藏的钥匙。数据分析的过程就像是一次探险,从 ...
2024-12-25在职场上,拍脑袋做决策的时代早已过去。数据分析正在成为每个职场人的核心竞争力,不仅能帮你找到问题,还能提供解决方案,提升 ...
2024-12-24Excel是数据分析的重要工具,强大的内置功能使其成为许多分析师的首选。在日常工作中,启用Excel的数据分析工具库能够显著提升数 ...
2024-12-23在当今信息爆炸的时代,数据分析师如同一位现代社会的侦探,肩负着从海量数据中提炼出有价值信息的重任。在这个过程中,掌握一系 ...
2024-12-23在现代的职场中,制作吸引人的PPT已经成为展示信息的重要手段,而其中数据对比的有效呈现尤为关键。为了让数据在幻灯片上不仅准 ...
2024-12-23在信息泛滥的现代社会,数据分析师已成为企业决策过程中不可或缺的角色。他们的任务是从海量数据中提取有价值的洞察,帮助组织制 ...
2024-12-23在数据驱动时代,数据分析已成为各行各业的必需技能。无论是提升个人能力还是推动职业发展,选择一条适合自己的学习路线至关重要 ...
2024-12-23在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19