基础准备
两样本推断性统计基础:两样本估计和假设检验基础。
通过对比单样本估计和假设检验的学习,可以列出独立两样本均值差的估计和假设检验在不同情况的置信区间公式,有以下总结:
两样本的t分布
t分布在单样本估计和假设检验要求:正态总体,可以使用t分布进行两样本估计和假设检验;两样本估计和假设检验要求:除了正态总体外,还要假设两总体方差相等(方差齐性)才能使用t分布,原因是两总体方差相等,才能得到自由度为n1+n2-2的均值差抽样分布的方差,推导公式如下:
参照上表,标准差已知的正态分布总体均值差抽样分布为正态分布,可以得到独立样本均值差的置信区间,置信区间公式推导过程如下:
范例1:一位森林学家想知道还把高度对红杉树高度的影响。他测量了海平面上100棵成树的高度(总体1,标准差已知为30英尺),高度均值为320英尺;海拔3000英尺的73棵成树的高度(总体2,标准差已知为45英尺),高度均值为255英尺;问:两总体均值差的95%置信区间是多少?
解:不同海拔的红杉树的高度可以认为是正态分布的,总体方差已知,而且不同海拔的红杉树是独立样本,可以直接用上面置信区间公式计算,过程如下:
和单样本假设检验一样(单样本的假设检验),两样本假设检验问题也有一对统计假设:零假设和对立假设;同样也存在两侧和单侧假设检验,而且单侧假设检验又分为右侧检验和左侧检验。两样本假设检验中,一般把零假设为两均值差为0,对立假设根据题意选择双侧假设或是单侧假设;两样本假设检验的步骤和单样本假设检验一样。
从上表可知:标准差已知的正态总体均值差的抽样分布为正态分布,进行标准正态变换后可以假设检验,过程见下方范例。
范例2:独立随机样本取自均值未知,标准差已知的两个正态分布总体,第一个总体,标准差为0.73,样本容量为25,样本均值为7.3;第二个总体,标准差为0.89,样本容量为20,样本均值为6.7;在显著水平为0.01下作两总体均值差等于0的右尾检验。
均值差的置信区间:标准差未知,但假定相等的正态分布总体的独立小样本(小于30)
如上表所示,标准差未知,但假定相等的正态分布总体小样本,均值差的抽样分布符合t分布,可用表中置信区间计算公式,计算过程见范例。
范例3:为研究睡眠对记忆力的影响,一位心理学家在两种条件下对人群进行试验,内容是有关北极野外生活的纪实电影的细节回忆,这两种条件是:(1)电影在早上7点反映,被测人晚上睡眠正常,第二天晚上给他们50个有关电影的多项选择题;(2)电影早7点反映,被测人白天情况如常,未睡觉,同一天晚上7点给他们50个问题,样本是独立的,每组为15人,结果为:第1组,均值为37.2个正确,方差为3.33;第2组,均值为35.6个正确,方差为3.24。假定两种条件下的总体都是正态分布,且方差相等,计算总体均值差95%的置信区间。
均值差的假设检验:标准差未知,但假定相等的正态分布总体的独立小样本(小于30)
同上(置信区间),该条件下的假设检验适用t分布。
范例4:为检测某种激素对失眠的影响,一个医生给两组临睡前的病人服用不同剂量的激素,然后测量他们从服药到入睡的时间,第一组服用的是5mg的剂量,第二组服用的是15mg的剂量,样本是独立的,结果为:第一组,样本容量为10人,均值为14.8min,方差为4.36;第二组,样本容量为12人,均值为10.2min,方差为4.66。假定两个条件下的总体是正态分布,并且有同方差,在显著水平0.02下,用临界决策规则作零假设:两总体均值差为0的双侧检验。
均值差的置信区间:标准差未知的任何总体分布的独立大样本(大于等于30)
对于独立大样本(样本容量大于等于30),均值差的抽样分布是正态分布,可以转为标准正态分布,进而使用Z分布进行均值差区间估计;当然,如果是正态总体且方差是齐性的,也可以使用t分布。
范例5:一位机场管理人员让你估计一下,两条航线中哪一条更遵守他们的计划起飞时间。对每条航线你随机测量了30架飞机的计划起飞和实际起飞时间差。现在不能假定时间总体是正态分布,或是方差齐性的,独立样本结果:航线1,平均时间差12.4min,标准差3.72;航线2,平均时间差11.7min,标准差3.6。问两条航线平均时间差的差值的99%置信区间是什么?
均值差的假设检验:标准差未知的任何总体分布的独立大样本(大于等于30)
同上的解释:对于独立大样本(样本容量大于等于30),均值差的抽样分布是正态分布,可以转为标准正态分布,进而使用Z分布进行均值差区间估计;当然,如果是正态总体且方差是齐性的,也可以使用t分布。
范例6:一位机场管理人员让你估计一下,两条航线中哪一条更遵守他们的计划起飞时间。对每条航线你随机测量了30架飞机的计划起飞和实际起飞时间差。现在不能假定时间总体是正态分布,或是方差齐性的,独立样本结果:航线1,平均时间差12.4min,标准差3.72;航线2,平均时间差11.7min,标准差3.6。在0.01显著水平下,用临界值决策规则作零假设:两条航线延误时间的差等于0的双侧检验。
均值差的置信区间:成对样本
对于成对样本,需要用到不同于上面描述的独立两样本的估计方法,而应该用成对样本模型,模型推导如下:
范例7:某个医学研究中心研究一种激素用量对于睡眠的影响。为了避免随机选择的偶然性(例如用15mg的病人比5mg的年轻)对试验结果的影响,于是根据可能影响睡眠的年龄、性别、健康情况一起其它因素选择了12对病人,然后将每对病人随机分配到5mg组和15mg组。对每个病人测量从服药到入睡的时间,然后计算每对的时间差,结果是:4.9,4.6,5.1,4.5,7.1,3.2,5.4,3.9,5.9,4.6,2.9,4.7。由这些数据计算5mg组合15mg组的95%置信区间,假定差值的总体是正态分布。
均值差的假设检验:成对样本
同上,成对样本均值差的假设检验也用t分布。
范例8:某个医学研究中心研究一种激素用量对于睡眠的影响。为了避免随机选择的偶然性(例如用15mg的病人比5mg的年轻)对试验结果的影响,于是根据可能影响睡眠的年龄、性别、健康情况一起其它因素选择了12对病人,然后将每对病人随机分配到5mg组和15mg组。对每个病人测量从服药到入睡的时间,然后计算每对的时间差,结果是:4.9,4.6,5.1,4.5,7.1,3.2,5.4,3.9,5.9,4.6,2.9,4.7。在显著水平0.05下,用临界值决策桂策做零假设:两总体均值差为0的右侧检验,假设差值总体是正态分布。
方差比
上一篇两样本估计和假设检验基础讲过,两样本均值估计和假设检验用均值差表示,而两样本方差估计和假设检验则应该用方差比。这里就引出了F分布(F分布回顾:两样本估计和假设检验基础)。
方差比的置信区间:参数未知的正态分布总体的独立样本
范例9:为检测某种激素对失眠的影响,一个医生给两组临睡前的病人服用不同剂量的激素,然后测量他们从服药到入睡的时间,第一组服用的是5mg的剂量,第二组服用的是15mg的剂量,样本是独立的,结果为:第一组,样本容量为10人,均值为14.8min,方差为4.36;第二组,样本容量为12人,均值为10.2min,方差为4.66。假定两种条件下的总体都是正态分布,计算量总体方差比的90%置信区间。
范例10:为检测某种激素对失眠的影响,一个医生给两组临睡前的病人服用不同剂量的激素,然后测量他们从服药到入睡的时间,第一组服用的是5mg的剂量,第二组服用的是15mg的剂量,样本是独立的,结果为:第一组,样本容量为10人,均值为14.8min,方差为4.36;第二组,样本容量为12人,均值为10.2min,方差为4.66。假定两总体方差齐性,在0.01显著水平下,用临界值决策规则作这个假定的双侧检验。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-11随着数字化转型的加速,企业积累了海量数据,如何从这些数据中挖掘有价值的信息,成为企业提升竞争力的关键。CDA认证考试体系应 ...
2025-03-10推荐学习书籍 《CDA一级教材》在线电子版正式上线CDA网校,为你提供系统、实用、前沿的学习资源,助你轻松迈入数据分析的大门! ...
2025-03-07在数据驱动决策的时代,掌握多样的数据分析方法,就如同拥有了开启宝藏的多把钥匙,能帮助我们从海量数据中挖掘出关键信息,本 ...
2025-03-06在备考 CDA 考试的漫漫征途上,拥有一套契合考试大纲的优质模拟题库,其重要性不言而喻。它恰似黑夜里熠熠生辉的启明星,为每一 ...
2025-03-05“纲举目张,执本末从。”若想在数据分析领域有所收获,一套合适的学习教材至关重要。一套优质且契合需求的学习教材无疑是那关 ...
2025-03-04以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-04在现代商业环境中,数据分析师的角色愈发重要。数据分析师通过解读数据,帮助企业做出更明智的决策。因此,考取数据分析师证书成为了许多人提升职业竞争力的选择。本文将详细介绍考取数据分析师证书的过程,包括了解证书种类和 ...
2025-03-03在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2025-03-03数据分析师认证考试全面升级后,除了考试场次和报名时间,小伙伴们最关心的就是报名费了,报 ...
2025-03-032025年刚开启,知乎上就出现了一个热帖: 2024年突然出现的经济下行,使各行各业都感觉到压力山大。有人说,大环境越来越不好了 ...
2025-03-03大数据分析师培训旨在培养学员掌握大数据分析的基础知识、技术及应用能力,以适应企业对数据分析人才的需求。根据不同的培训需求 ...
2025-03-03小伙伴们,最近被《哪吒2》刷屏了吧!这部电影不仅在国内掀起观影热潮,还在全球范围内引发了关注,成为中国电影崛起的又一里程 ...
2025-03-03以下的文章内容来源于张彦存老师的专栏,如果您想阅读专栏《Python 数据可视化 18 讲(PyEcharts、Matplotlib、Seaborn)》,点 ...
2025-02-28最近,国产AI模型DeepSeek爆火,其创始人梁文峰走进大众视野。《黑神话:悟空》制作人冯骥盛赞DeepSeek为“国运级别的科技成果” ...
2025-02-271.统计学简介 听说你已经被统计学劝退,被Python唬住……先别着急划走,看完这篇再说! 先说结论,大多数情况下的学不会都不是知 ...
2025-02-27“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩稳定, ...
2025-02-26在数据分析工作中,你可能经常遇到这样的问题: 从浏览到消费的转化率一直很低,那到底该优化哪里呢? 如果你要投放广告该怎么 ...
2025-02-25近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的,尤 ...
2025-02-25挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-25