基础准备
两样本推断性统计基础:两样本估计和假设检验基础。
通过对比单样本估计和假设检验的学习,可以列出独立两样本均值差的估计和假设检验在不同情况的置信区间公式,有以下总结:
两样本的t分布
t分布在单样本估计和假设检验要求:正态总体,可以使用t分布进行两样本估计和假设检验;两样本估计和假设检验要求:除了正态总体外,还要假设两总体方差相等(方差齐性)才能使用t分布,原因是两总体方差相等,才能得到自由度为n1+n2-2的均值差抽样分布的方差,推导公式如下:
参照上表,标准差已知的正态分布总体均值差抽样分布为正态分布,可以得到独立样本均值差的置信区间,置信区间公式推导过程如下:
范例1:一位森林学家想知道还把高度对红杉树高度的影响。他测量了海平面上100棵成树的高度(总体1,标准差已知为30英尺),高度均值为320英尺;海拔3000英尺的73棵成树的高度(总体2,标准差已知为45英尺),高度均值为255英尺;问:两总体均值差的95%置信区间是多少?
解:不同海拔的红杉树的高度可以认为是正态分布的,总体方差已知,而且不同海拔的红杉树是独立样本,可以直接用上面置信区间公式计算,过程如下:
和单样本假设检验一样(单样本的假设检验),两样本假设检验问题也有一对统计假设:零假设和对立假设;同样也存在两侧和单侧假设检验,而且单侧假设检验又分为右侧检验和左侧检验。两样本假设检验中,一般把零假设为两均值差为0,对立假设根据题意选择双侧假设或是单侧假设;两样本假设检验的步骤和单样本假设检验一样。
从上表可知:标准差已知的正态总体均值差的抽样分布为正态分布,进行标准正态变换后可以假设检验,过程见下方范例。
范例2:独立随机样本取自均值未知,标准差已知的两个正态分布总体,第一个总体,标准差为0.73,样本容量为25,样本均值为7.3;第二个总体,标准差为0.89,样本容量为20,样本均值为6.7;在显著水平为0.01下作两总体均值差等于0的右尾检验。
均值差的置信区间:标准差未知,但假定相等的正态分布总体的独立小样本(小于30)
如上表所示,标准差未知,但假定相等的正态分布总体小样本,均值差的抽样分布符合t分布,可用表中置信区间计算公式,计算过程见范例。
范例3:为研究睡眠对记忆力的影响,一位心理学家在两种条件下对人群进行试验,内容是有关北极野外生活的纪实电影的细节回忆,这两种条件是:(1)电影在早上7点反映,被测人晚上睡眠正常,第二天晚上给他们50个有关电影的多项选择题;(2)电影早7点反映,被测人白天情况如常,未睡觉,同一天晚上7点给他们50个问题,样本是独立的,每组为15人,结果为:第1组,均值为37.2个正确,方差为3.33;第2组,均值为35.6个正确,方差为3.24。假定两种条件下的总体都是正态分布,且方差相等,计算总体均值差95%的置信区间。
均值差的假设检验:标准差未知,但假定相等的正态分布总体的独立小样本(小于30)
同上(置信区间),该条件下的假设检验适用t分布。
范例4:为检测某种激素对失眠的影响,一个医生给两组临睡前的病人服用不同剂量的激素,然后测量他们从服药到入睡的时间,第一组服用的是5mg的剂量,第二组服用的是15mg的剂量,样本是独立的,结果为:第一组,样本容量为10人,均值为14.8min,方差为4.36;第二组,样本容量为12人,均值为10.2min,方差为4.66。假定两个条件下的总体是正态分布,并且有同方差,在显著水平0.02下,用临界决策规则作零假设:两总体均值差为0的双侧检验。
均值差的置信区间:标准差未知的任何总体分布的独立大样本(大于等于30)
对于独立大样本(样本容量大于等于30),均值差的抽样分布是正态分布,可以转为标准正态分布,进而使用Z分布进行均值差区间估计;当然,如果是正态总体且方差是齐性的,也可以使用t分布。
范例5:一位机场管理人员让你估计一下,两条航线中哪一条更遵守他们的计划起飞时间。对每条航线你随机测量了30架飞机的计划起飞和实际起飞时间差。现在不能假定时间总体是正态分布,或是方差齐性的,独立样本结果:航线1,平均时间差12.4min,标准差3.72;航线2,平均时间差11.7min,标准差3.6。问两条航线平均时间差的差值的99%置信区间是什么?
均值差的假设检验:标准差未知的任何总体分布的独立大样本(大于等于30)
同上的解释:对于独立大样本(样本容量大于等于30),均值差的抽样分布是正态分布,可以转为标准正态分布,进而使用Z分布进行均值差区间估计;当然,如果是正态总体且方差是齐性的,也可以使用t分布。
范例6:一位机场管理人员让你估计一下,两条航线中哪一条更遵守他们的计划起飞时间。对每条航线你随机测量了30架飞机的计划起飞和实际起飞时间差。现在不能假定时间总体是正态分布,或是方差齐性的,独立样本结果:航线1,平均时间差12.4min,标准差3.72;航线2,平均时间差11.7min,标准差3.6。在0.01显著水平下,用临界值决策规则作零假设:两条航线延误时间的差等于0的双侧检验。
均值差的置信区间:成对样本
对于成对样本,需要用到不同于上面描述的独立两样本的估计方法,而应该用成对样本模型,模型推导如下:
范例7:某个医学研究中心研究一种激素用量对于睡眠的影响。为了避免随机选择的偶然性(例如用15mg的病人比5mg的年轻)对试验结果的影响,于是根据可能影响睡眠的年龄、性别、健康情况一起其它因素选择了12对病人,然后将每对病人随机分配到5mg组和15mg组。对每个病人测量从服药到入睡的时间,然后计算每对的时间差,结果是:4.9,4.6,5.1,4.5,7.1,3.2,5.4,3.9,5.9,4.6,2.9,4.7。由这些数据计算5mg组合15mg组的95%置信区间,假定差值的总体是正态分布。
均值差的假设检验:成对样本
同上,成对样本均值差的假设检验也用t分布。
范例8:某个医学研究中心研究一种激素用量对于睡眠的影响。为了避免随机选择的偶然性(例如用15mg的病人比5mg的年轻)对试验结果的影响,于是根据可能影响睡眠的年龄、性别、健康情况一起其它因素选择了12对病人,然后将每对病人随机分配到5mg组和15mg组。对每个病人测量从服药到入睡的时间,然后计算每对的时间差,结果是:4.9,4.6,5.1,4.5,7.1,3.2,5.4,3.9,5.9,4.6,2.9,4.7。在显著水平0.05下,用临界值决策桂策做零假设:两总体均值差为0的右侧检验,假设差值总体是正态分布。
方差比
上一篇两样本估计和假设检验基础讲过,两样本均值估计和假设检验用均值差表示,而两样本方差估计和假设检验则应该用方差比。这里就引出了F分布(F分布回顾:两样本估计和假设检验基础)。
方差比的置信区间:参数未知的正态分布总体的独立样本
范例9:为检测某种激素对失眠的影响,一个医生给两组临睡前的病人服用不同剂量的激素,然后测量他们从服药到入睡的时间,第一组服用的是5mg的剂量,第二组服用的是15mg的剂量,样本是独立的,结果为:第一组,样本容量为10人,均值为14.8min,方差为4.36;第二组,样本容量为12人,均值为10.2min,方差为4.66。假定两种条件下的总体都是正态分布,计算量总体方差比的90%置信区间。
范例10:为检测某种激素对失眠的影响,一个医生给两组临睡前的病人服用不同剂量的激素,然后测量他们从服药到入睡的时间,第一组服用的是5mg的剂量,第二组服用的是15mg的剂量,样本是独立的,结果为:第一组,样本容量为10人,均值为14.8min,方差为4.36;第二组,样本容量为12人,均值为10.2min,方差为4.66。假定两总体方差齐性,在0.01显著水平下,用临界值决策规则作这个假定的双侧检验。
数据分析咨询请扫描二维码
大数据分析师证书 针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。 ...
2024-10-29拥抱数据分析的世界 - 成为一名数据分析工程师是一个充满挑战和机遇的职业选择。要成功地进入这个领域,你需要掌握一系列关键技 ...
2024-10-28降本增效:管理战略的关键 企业管理中的降本增效不仅是一项重要的战略举措,更是激发竞争力、提高盈利能力的关键。这一理念在当 ...
2024-10-28企业数字化是指利用数字技术和信息化手段,对企业的各个方面进行改造和优化,以提升生产效率、服务质量和市场竞争力的过程。实现 ...
2024-10-28数据科学专业毕业后,毕业生可以选择从事多种不同的岗位和领域。数据科学是一个快速发展且广泛应用的领域,毕业生在企业、学术界 ...
2024-10-28学习数据科学与大数据技术是当今职业发展中至关重要的一环。从基础到高级,以下是一些建议的课程路径: 基础课程: Python编程 ...
2024-10-28在信息技术和数据科学领域,数据架构师扮演着至关重要的角色。他们负责设计和管理企业中复杂的数据基础设施,以支持数据驱动的决 ...
2024-10-28进入21世纪以来,随着信息技术的迅猛发展,大数据已经成为全球最具影响力的技术之一,并成为企业数字化转型的核心驱动力。大数据 ...
2024-10-28随着科技的迅猛发展,数字化转型已成为现代企业保持竞争力和推动增长的关键战略之一。数字化不仅仅是技术的应用,它代表着一种全 ...
2024-10-28银行业正处于一个前所未有的数字化转型时期。在数字经济的驱动下,金融科技如大数据、人工智能、生物识别、物联网和云计算等技术 ...
2024-10-28数据分析可视化是一门艺术与科学相结合的技术,其主要目标是将复杂的数据变得更易于理解和分析。通过将数据以图表的形式呈现,我 ...
2024-10-28数据分析师在现代信息密集型的商业世界中扮演着至关重要的角色。他们通过专业的技能和敏锐的商业洞察力,帮助企业从大量数据中提 ...
2024-10-28在当今快速发展的数据驱动世界中,数据专员的角色变得愈发重要。无论是在企业决策、市场分析还是产品开发中,数据专员都扮演着不 ...
2024-10-27在当今迅速发展的科技时代,数字化对企业的意义无比深远。它不仅提升了企业的竞争力和运营效率,还显著改善了客户体验,推动了企 ...
2024-10-27企业数字化转型是一个全方位的变革过程,旨在通过应用新兴数字技术,重新设计企业的业务流程、组织结构、产品和服务,以在竞争激 ...
2024-10-27数据挖掘是一种集成了统计学、人工智能和机器学习等多种技术的过程,其主要目标是从大量数据中提取有价值的信息和知识。通过分析 ...
2024-10-27数字经济是一种新型的经济形态,以数字技术为基础,通过数据的获取、存储、加工、传输和应用进行经济发展。其核心在于利用数字化 ...
2024-10-27数据科学无疑是现代数字化社会的中流砥柱。随着大数据和人工智能技术的持续飞跃,各行各业对具备数据分析和管理能力的人才需求呈 ...
2024-10-25在当今快速发展的商业环境中,数字化转型已经成为企业保持竞争力和促进业务增长的必然选择。数字化转型不仅意味着技术的变革,更 ...
2024-10-25在当今数据驱动的商业环境中,数据分析已经成为企业决策过程中的核心要素。企业需要处理海量数据,从中提炼出有价值的见解,以支 ...
2024-10-25