基础准备
两样本推断性统计基础:两样本估计和假设检验基础。
通过对比单样本估计和假设检验的学习,可以列出独立两样本均值差的估计和假设检验在不同情况的置信区间公式,有以下总结:
两样本的t分布
t分布在单样本估计和假设检验要求:正态总体,可以使用t分布进行两样本估计和假设检验;两样本估计和假设检验要求:除了正态总体外,还要假设两总体方差相等(方差齐性)才能使用t分布,原因是两总体方差相等,才能得到自由度为n1+n2-2的均值差抽样分布的方差,推导公式如下:
参照上表,标准差已知的正态分布总体均值差抽样分布为正态分布,可以得到独立样本均值差的置信区间,置信区间公式推导过程如下:
范例1:一位森林学家想知道还把高度对红杉树高度的影响。他测量了海平面上100棵成树的高度(总体1,标准差已知为30英尺),高度均值为320英尺;海拔3000英尺的73棵成树的高度(总体2,标准差已知为45英尺),高度均值为255英尺;问:两总体均值差的95%置信区间是多少?
解:不同海拔的红杉树的高度可以认为是正态分布的,总体方差已知,而且不同海拔的红杉树是独立样本,可以直接用上面置信区间公式计算,过程如下:
和单样本假设检验一样(单样本的假设检验),两样本假设检验问题也有一对统计假设:零假设和对立假设;同样也存在两侧和单侧假设检验,而且单侧假设检验又分为右侧检验和左侧检验。两样本假设检验中,一般把零假设为两均值差为0,对立假设根据题意选择双侧假设或是单侧假设;两样本假设检验的步骤和单样本假设检验一样。
从上表可知:标准差已知的正态总体均值差的抽样分布为正态分布,进行标准正态变换后可以假设检验,过程见下方范例。
范例2:独立随机样本取自均值未知,标准差已知的两个正态分布总体,第一个总体,标准差为0.73,样本容量为25,样本均值为7.3;第二个总体,标准差为0.89,样本容量为20,样本均值为6.7;在显著水平为0.01下作两总体均值差等于0的右尾检验。
均值差的置信区间:标准差未知,但假定相等的正态分布总体的独立小样本(小于30)
如上表所示,标准差未知,但假定相等的正态分布总体小样本,均值差的抽样分布符合t分布,可用表中置信区间计算公式,计算过程见范例。
范例3:为研究睡眠对记忆力的影响,一位心理学家在两种条件下对人群进行试验,内容是有关北极野外生活的纪实电影的细节回忆,这两种条件是:(1)电影在早上7点反映,被测人晚上睡眠正常,第二天晚上给他们50个有关电影的多项选择题;(2)电影早7点反映,被测人白天情况如常,未睡觉,同一天晚上7点给他们50个问题,样本是独立的,每组为15人,结果为:第1组,均值为37.2个正确,方差为3.33;第2组,均值为35.6个正确,方差为3.24。假定两种条件下的总体都是正态分布,且方差相等,计算总体均值差95%的置信区间。
均值差的假设检验:标准差未知,但假定相等的正态分布总体的独立小样本(小于30)
同上(置信区间),该条件下的假设检验适用t分布。
范例4:为检测某种激素对失眠的影响,一个医生给两组临睡前的病人服用不同剂量的激素,然后测量他们从服药到入睡的时间,第一组服用的是5mg的剂量,第二组服用的是15mg的剂量,样本是独立的,结果为:第一组,样本容量为10人,均值为14.8min,方差为4.36;第二组,样本容量为12人,均值为10.2min,方差为4.66。假定两个条件下的总体是正态分布,并且有同方差,在显著水平0.02下,用临界决策规则作零假设:两总体均值差为0的双侧检验。
均值差的置信区间:标准差未知的任何总体分布的独立大样本(大于等于30)
对于独立大样本(样本容量大于等于30),均值差的抽样分布是正态分布,可以转为标准正态分布,进而使用Z分布进行均值差区间估计;当然,如果是正态总体且方差是齐性的,也可以使用t分布。
范例5:一位机场管理人员让你估计一下,两条航线中哪一条更遵守他们的计划起飞时间。对每条航线你随机测量了30架飞机的计划起飞和实际起飞时间差。现在不能假定时间总体是正态分布,或是方差齐性的,独立样本结果:航线1,平均时间差12.4min,标准差3.72;航线2,平均时间差11.7min,标准差3.6。问两条航线平均时间差的差值的99%置信区间是什么?
均值差的假设检验:标准差未知的任何总体分布的独立大样本(大于等于30)
同上的解释:对于独立大样本(样本容量大于等于30),均值差的抽样分布是正态分布,可以转为标准正态分布,进而使用Z分布进行均值差区间估计;当然,如果是正态总体且方差是齐性的,也可以使用t分布。
范例6:一位机场管理人员让你估计一下,两条航线中哪一条更遵守他们的计划起飞时间。对每条航线你随机测量了30架飞机的计划起飞和实际起飞时间差。现在不能假定时间总体是正态分布,或是方差齐性的,独立样本结果:航线1,平均时间差12.4min,标准差3.72;航线2,平均时间差11.7min,标准差3.6。在0.01显著水平下,用临界值决策规则作零假设:两条航线延误时间的差等于0的双侧检验。
均值差的置信区间:成对样本
对于成对样本,需要用到不同于上面描述的独立两样本的估计方法,而应该用成对样本模型,模型推导如下:
范例7:某个医学研究中心研究一种激素用量对于睡眠的影响。为了避免随机选择的偶然性(例如用15mg的病人比5mg的年轻)对试验结果的影响,于是根据可能影响睡眠的年龄、性别、健康情况一起其它因素选择了12对病人,然后将每对病人随机分配到5mg组和15mg组。对每个病人测量从服药到入睡的时间,然后计算每对的时间差,结果是:4.9,4.6,5.1,4.5,7.1,3.2,5.4,3.9,5.9,4.6,2.9,4.7。由这些数据计算5mg组合15mg组的95%置信区间,假定差值的总体是正态分布。
均值差的假设检验:成对样本
同上,成对样本均值差的假设检验也用t分布。
范例8:某个医学研究中心研究一种激素用量对于睡眠的影响。为了避免随机选择的偶然性(例如用15mg的病人比5mg的年轻)对试验结果的影响,于是根据可能影响睡眠的年龄、性别、健康情况一起其它因素选择了12对病人,然后将每对病人随机分配到5mg组和15mg组。对每个病人测量从服药到入睡的时间,然后计算每对的时间差,结果是:4.9,4.6,5.1,4.5,7.1,3.2,5.4,3.9,5.9,4.6,2.9,4.7。在显著水平0.05下,用临界值决策桂策做零假设:两总体均值差为0的右侧检验,假设差值总体是正态分布。
方差比
上一篇两样本估计和假设检验基础讲过,两样本均值估计和假设检验用均值差表示,而两样本方差估计和假设检验则应该用方差比。这里就引出了F分布(F分布回顾:两样本估计和假设检验基础)。
方差比的置信区间:参数未知的正态分布总体的独立样本
范例9:为检测某种激素对失眠的影响,一个医生给两组临睡前的病人服用不同剂量的激素,然后测量他们从服药到入睡的时间,第一组服用的是5mg的剂量,第二组服用的是15mg的剂量,样本是独立的,结果为:第一组,样本容量为10人,均值为14.8min,方差为4.36;第二组,样本容量为12人,均值为10.2min,方差为4.66。假定两种条件下的总体都是正态分布,计算量总体方差比的90%置信区间。
范例10:为检测某种激素对失眠的影响,一个医生给两组临睡前的病人服用不同剂量的激素,然后测量他们从服药到入睡的时间,第一组服用的是5mg的剂量,第二组服用的是15mg的剂量,样本是独立的,结果为:第一组,样本容量为10人,均值为14.8min,方差为4.36;第二组,样本容量为12人,均值为10.2min,方差为4.66。假定两总体方差齐性,在0.01显著水平下,用临界值决策规则作这个假定的双侧检验。
数据分析咨询请扫描二维码
《Python数据分析极简入门》 第2节 5 Pandas数学计算 importpandasaspdd=np.array([[81,&n ...
2024-11-23数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面: 基础知识: 数据分析的基本概念 ...
2024-11-22数据分析适合在多个单位工作,包括但不限于以下领域: 金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经 ...
2024-11-22数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面: 数据收集与整理:数据分析师 ...
2024-11-22数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能: ...
2024-11-22数据开发和数据分析是两个密切相关但又有所区别的领域。以下是它们的主要区别: 定义和目标: 数据开发:数据开发涉及数据的 ...
2024-11-22数据架构师是负责设计和管理企业数据架构的关键角色,其职责涵盖了多个方面,包括数据治理、数据模型设计、数据仓库构建、数据安 ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列的技能和能力,以确保能够有效地处理、分析和解释数据,从而支持业务决策。以下是数据分析师所需的主要 ...
2024-11-22需求持续增长 - 未来数据分析师需求将持续上升,企业对数据驱动决策的依赖加深。 - 预测到2025年,中国将需要高达220万的数据人 ...
2024-11-22《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21数据分析作为一个备受追捧的职业领域,吸引着越来越多的女性加入其中。对于女生而言,在选择成为一名数据分析师时,行业选择至关 ...
2024-11-21