久经考场的你肯定对于很多概念类题目里问到的 “区别和联系” 不陌生,与之类似,在统计领域要研究的是数据之间的区别和联系 ,也就是差异性分析和相关性分析。本节我们重点关注数据的差异性分析。
我们知道,比较两个数之间的大小,要么前后两者求差,要么求比。差值大于零说明前者大于后者。比值大于1说明分子大于分母。
那么如何比较两组数据的差异性呢?大道至简,其实和上面原理类似
我们先从简单的看起,先比较一组数和一个给定数的差异,即,单个总体的差异性分析:
常见的单个总体差异性的假设检验分为3个类型:均值、比例、方差
顾名思义,就是检验指定值与样本均值的差异,按是否已知可以分2种情况:
接下来我们用代码举例实现一下你就明白怎么用了:
例5.1 检验一批厂家生产的红糖是否够标重
监督部门称了50包标重500g的红糖,均值是498.35g,少于所标的500g。对于厂家生产的这批红糖平均起来是否够份量,需要统计检验。
分析过程: 由于厂家声称每袋500g,因此原假设为总体均值等于500g(被怀疑对象总是放在零假设)。而且由于样本均值少于500g(这是怀疑的根据),把备择假设设定为总体均值少于500g (上面这种备选假设为单向不等式的检验称为单侧检验,而备选假设为不等号“”的称为双侧检验,后面会解释)
于是我们有了原假设和备择假设
:
引入相关库、读取数据如下
from scipy import stats
import scipy.stats
import numpy as np
import pandas as pd
import statsmodels.stats.weightstats
data = [493.01,498.83,494.16,500.39,497.63,499.72,493.41,498.97,501.94,503.45,497.47,494.19,500.99,495.81,499.63,494.91,498.90,502.43,491.34,497.50,505.95,496.56,501.66,492.02,497.68,493.48,505.40,499.21,505.84,499.41,505.65,500.51,489.53,496.55,492.26,498.91,496.65,496.38,497.16,498.91,490.98,499.97,501.21,502.85,494.35,502.96,506.21,497.66,504.66,492.11]
进行z检验:
z, pval = statsmodels.stats.weightstats.ztest(data, value=500,alternative = 'smaller')
# 'two-sided': 样本均值与给定的总体均值不同
# 'larger' : 样本均值小于给定总体均值
# 'smaller' : 样本均值大于给定总体均值
print(z,pval)
# -2.6961912076362085 0.0035068696715304876
结论: 选择显著性水平 0.05 的话,P=0.0035 < 0.05
, 故应该拒绝原假设。具体来说就是该结果倾向于支持平均重量小于500g的备则假设。
例5.2 检验汽车实际排放是否低于其声称的排放标准
汽车厂商声称其发动机排放标准的一个指标平均低于20个单位。在抽查了10台发动机之后,得到下面的排放数据:
17.0 21.7 17.9 22.9 20.7 22.4 17.3 21.8 24.2 25.4
该样本均值为21.13.究竟能否由此认为该指标均值超过20?
分析过程: 由于厂家声称指标平均低于20个单位,因此原假设为总体均值等于20个单位(被怀疑对象总是放在零假设)。而且由于样本均值大于20(这是怀疑的根据),把备择假设设定为总体均值大于20个单位
于是我们有了原假设和备择假设
:
读取数据如下
data = [17.0, 21.7, 17.9, 22.9, 20.7, 22.4, 17.3, 21.8, 24.2, 25.4]
进行t检验如下:
import scipy.stats
t, pval = scipy.stats.ttest_1samp(a = data, popmean=20,alternative = 'greater')
# 说明
# a 为给定的样本数据
# popmean 为给定的总体均值
# alternative 定义备择假设。以下选项可用(默认为“two-sided”):
# ‘two-sided’:样本均值与给定的总体均值(popmean)不同
# ‘less’:样本均值小于给定总体均值(popmean)
# ‘greater’:样本均值大于给定总体均值(popmean)
print(t, pval)
# '''
# P= 0.004793 < 5%, 拒绝原假设,接受备择假设样本
# '''
结论: 选择显著性水平 0.01 的话,P=0.1243 > 0.05
, 故无法拒绝原假设。具体来说就是该结果无法支持指标均值超过20的备则假设。
例5.3 检验高尔夫球场女性球员比例是否因促销活动而升高
某高尔夫球场去年打球????????的人当中有20%是女性,为了增加女性球员的比例,该球场推出了一项促销活动来吸引更多的女性参加高尔夫运动,在活动实施了1个月后,球场的研究者想通过统计分析研究确定高尔夫球场的女性球员比例是否上升,收集到了400个随机样本,其中有100是女性
分析过程: 由于研究的是女性球员所占的比例是否上升,因此选择上侧检验比较合适,备择假设是比例大于20%
:
import numpy as np
from statsmodels.stats.proportion import proportions_ztest
count = 100
nobs = 400
p_0 = 0.2
p_bar = count/nobs
p_0 = 0.2
n = 400
# 执行单一样本比例检验 statsmodels.stats.proportion.proportions_ztest
z_statistic, p_value = proportions_ztest(count, nobs, value = p_0,alternative='larger',prop_var = value)
# 注:statsmodels.stats.proportion.proportions_ztest 的函数有几个问题:讲在第八节之后说明,感兴趣的读者请持续关注
# 打印结果
print("z统计量:", z_statistic)
print("p值:", p_value)
#z统计量: 2.4999999999999996
#p值: 0.006209665325776138
count = 100
nobs = 400
p_0 = 0.2
p_bar = count/nobs
p_0 = 0.2
n = 400
def calc_z_score(p_bar, p_0, n):
z = (p_bar - p_0) / (p_0 * (1 - p_0) / n)**0.5
return z
z = calc_z_score(p_bar, p_0, n)
p = stats.norm.sf(z)
# 打印结果
print("z统计量:", z)
print("p值:", p)
# z统计量: 2.4999999999999996
# p值: 0.006209665325776138
结论: 选择显著性水平 0.05 的话,P=0.0062 < 0.05
, 拒绝原假设。具体来说就是该结果支持特定的促销活动能够提升该球场女性运动员比例的备则假设。
import numpy as np
from scipy import stats
def chi2test(sample_var, sample_num,sigma_square,side, alpha=0.05):
'''
参数:
sample_var--样本方差
sample_num--样本容量
sigma_square--H0方差
返回值:
pval
'''
chi_square =((sample_num-1)*sample_var)/(sigma_square)
p_value = None
if side == 'two-sided':
p = stats.chi2(df=sample_num-1).cdf(chi_square)
p_value = 2*np.min([p, 1-p])
elif side == 'less':
p_value = stats.chi2(df=sample_num-1).cdf(chi_square)
elif side == 'greater':
 
数据分析是一个涉及从数据收集、清理到分析、可视化和解释的复杂过程。随着数据在各行各业中的重要性不断增加,数据分析工具也变 ...
2024-10-066. 方差分析 单因素多水平方差分析 例6.1 不同装配方式对生产的过滤系统数量的差异性检验 某城市过滤水系统生产公司,有A、B、C3 ...
2024-10-06不过,在出题前,要公布上一期LEVEL II中61-65题的答案,大家一起来看! 62、B 64、B 你答对了吗? 66.关于单因素 ...
2024-10-05嗨喽,各位同学又到了公布CDA数据分析师认证考试LEVEL II的模拟试题时间了,今天给大家带来的是模拟试题(一)中的146-150 ...
2024-10-055. 假设检验 久经考场的你肯定对于很多概念类题目里问到的 “区别和联系” 不陌生,与之类似,在统计领域要研究的是数据之间的区 ...
2024-10-05数据模型(Data Model)是对现实世界数据特征的抽象,用于描述一组数据的概念和定义。它从抽象层次上描述了系统的静态特征、动态 ...
2024-10-044. 区间估计 还以为你被上节课的内容唬住了~终于等到你,还好没放弃! 本节我们将说明两个问题:总体均值 的区间估计和总体比例 ...
2024-10-04大数据分析师在现代企业中扮演着至关重要的角色。他们通过分析大量数据,帮助企业做出明智的决策。要成为一名成功的大数据分析师 ...
2024-10-033. 数据分布 t分布、F分布和卡方分布是统计学中常用的三种概率分布,它们分别用于样本均值的推断、方差的比较和数据的拟合优度检 ...
2024-10-03大数据分析师在现代企业中扮演着至关重要的角色。他们通过分析大量数据,帮助企业做出明智的决策。要成为一名成功的大数据分析师 ...
2024-10-022. 描述性统计 上一篇介绍了数据的分类、统计学是什么、以及统计学知识的大分类,本篇我们重点学习描述性统计学。 我们描述一组 ...
2024-10-02大数据专业的毕业生可以选择多种就业方向和岗位,主要集中在数据分析、系统研发和应用开发三大领域。以下是一些具体的岗位: 大 ...
2024-10-011.统计学简介 听说你已经被统计学劝退,被Python唬住……先别着急划走,看完这篇再说! 先说结论,大多数情况下的学不会都不是知 ...
2024-10-01大数据的全球市场规模在 2023 年估计为 1850 亿美元,预计到 2030 年将达到 3834 亿美元,2023 年至 2030 年的复合年增长率为 11 ...
2024-09-30大数据分析是指收集、分析和处理大量数据以发现市场趋势、洞察力和模式,帮助公司做出更好的商业决策的过程。这些信息可以快速、 ...
2024-09-30大数据分析是当今世界一些最重要行业进步背后的推动力,包括医疗、政府和金融等领域。了解更多关于如何处理大数据以及开始时使用 ...
2024-09-30大数据已经成为日常生活不可或缺的一部分,影响着我们的活动。对大量数据的分析已经成为一个重要的行业,对大数据分析师的需求也 ...
2024-09-30数据分析师证书报名官网指南 数据分析师在现代企业中扮演着越来越重要的角色,掌握数据分析技能不仅能够提升个人职场竞争力,也 ...
2024-09-29大数据分析师培训学什么 课程简介 大数据分析师课程以大数据分析技术为主线,以大数据分析师为培养目标,从数据分析基础、linux ...
2024-09-29随着大数据在各行各业中的应用日益广泛,数据分析师这一职业变得越来越重要。作为一名数据分析师,不仅需要具备扎实的技术能力, ...
2024-09-29