京公网安备 11010802034615号
经营许可证编号:京B2-20210330
【R语言】单一样本推断问题
非参数统计概念:
在实际问题中,对数据的分布形式和统计模型难以作出比较明确的假定,最多只能对总体的分布做出类似于连续性型分布或者对某点对称等一般性假定。这种不假设总体分布的具体形式,尽量从数据(样本)本身获得所需要的信息,通过估计而获得分布的结构,并逐步建立对事物的数学描述和统计建模的方法称为非参数方法。
单一样本的推断问题:
符号检验
符号检验所关心的就是通过符号“+”“-”的个数来进行统计推断
eg:假设某城市16座欲出售的楼盘均价(单位:百元 /平方米)
36 32 31 25 28 36 40 32 41 26 35 35 32 87 33 35
问:该地盘楼盘价格是否与媒体公布的3700元/平方米说法相符?
分析:
总体均值的点估计是样本均值,总体中位数的点估计是样本中位数,由于中位数的稳健性,将37理解为总体的中位数,则假设问题为:
H0:M=37 H1: M不等于37(待检验的中位数值)
假设:
S+:位于37右边的个数 S-: 位于37左边的个数
令K=min{S+,S-},且K服从p=0.5的二项分布
R代码:
##1.S-为检验统计量
sign1.test = function(x,pi,q0){
s1 = sum(x<q0) #S-的个数
s2 = sum(x>q0) #S+的个数
n = s1+s2
p1 = pbinom(s1,n,pi) ### 取检验统计量K=S-,计算 P(K<=s1)
p2 = 1-pbinom(s1-1,n,pi) ### 计算 P(K>=s1)
if(p1 < p2){ m1 = "one tail test:H1: Q > q0"
}else{
m1 = "one tail test:H1: Q < q0"
}
p.value = min(p1,p2)
m2 = "two tails test"
p.value2 = 2*p.value
list(sign.test.type = m1,p.values.of.one.test = p.value,p.value.of.two.tail.test = p.value2)
}
##以上便构建了符号检验的函数,接下来可以直接调用
data=c(36,31,25,28,36,40,32,41,26,35,35,32,87,33,35,32)##赋值
x=median(data)##获取样本中位数
sign1.test(data,0.5,37)
结果解读:
p=0.02127<0.05(显著性水平),拒绝H0,认为该地盘楼盘价格是否与媒体公布的3700元/平方米存在显著差异。
趋势检验
对于趋势分析,我们用一些数对来反映前后数据的变化。为保证数对同分布,前后两个数的间隔应该固定;为保证数对不受局部干扰,前后两个数的间隔应该较大。Cox-Staut趋势检验,是以数列中位于中间位置的数为拆分点,前后两两组成数对。
例:一个住宅小区的夜间噪音长期一直保持在30分贝。后来附近有建筑工地施工。数据是连续12天夜间在该小区所测得的噪声水平(分贝)。
30,31,33,35,31,30,68,60,65,67,66,64
请问:该建筑工地是否提高了小区的噪声水平?
建立假设:
Ho:该建筑工地没有提高小区的噪声水平
H1:该建筑工地提高了小区的噪声水平
检验统计量选取:
S=min{S+,S-}
S+:每一数对前后两值之差为正的个数
S-:每一数对前后两值之差为负的个数
R代码:
CS.test = function(x){
m = length(x)
c = if(m/2-round(m/2)==0){m/2}else{(m+1)/2} ### 此处亦可用floor(m/2)代替round(m/2)
d = if(m/2-round(m/2)==0){x[1:c]-x[(c+1):m]}else{x[1:(c-1)]-x[(c+1):m]}
n1 = length(d[which(d > 0)]) ### n1 = length(which(d > 0))
n2 = length(d[which(d < 0)])
n = n1+n2
s1 = sum(sign(d)== 1)
s2 = sum(sign(d)== -1)
if(n1 > n2){
m1 = "one tail test:H1: decreasing"
p.value = pbinom(n2,n,0.5)
}else{
m1 = "one tail test:H1: increasing"
p.value = pbinom(n1,n,0.5)
}
m2 = "two tails test"
s = min(s1,s2)
p.value2 = 2*pbinom(s,n,0.5)
if(n1==n2){p.value = 0.5;p.value2 = 1}
list(sign.test.type = m1,p.values.of.one.test = p.value,p.value.of.two.tail.test = p.value2)
}
上述就是Cox-Staut检验的算法代码
代入数据:
x=c(30,31,33,35,31,30,68,60,65,67,66,64)
结果分析:
单边检验P=0.015625<0.05(显著性水平)
故拒绝H0,认为该建筑工地提高了小区的噪声水平。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在使用Excel透视表进行数据汇总分析时,我们常遇到“需通过两个字段相乘得到关键指标”的场景——比如“单价×数量=金额”“销量 ...
2025-11-14在测试环境搭建、数据验证等场景中,经常需要将UAT(用户验收测试)环境的表数据同步到SIT(系统集成测试)环境,且两者表结构完 ...
2025-11-14在数据驱动的企业中,常有这样的困境:分析师提交的“万字数据报告”被束之高阁,而一张简洁的“复购率趋势图+核心策略标注”却 ...
2025-11-14在实证研究中,层次回归分析是探究“不同变量组对因变量的增量解释力”的核心方法——通过分步骤引入自变量(如先引入人口统计学 ...
2025-11-13在实时数据分析、实时业务监控等场景中,“数据新鲜度”直接决定业务价值——当电商平台需要实时统计秒杀订单量、金融系统需要实 ...
2025-11-13在数据量爆炸式增长的今天,企业对数据分析的需求已从“有没有”升级为“好不好”——不少团队陷入“数据堆砌却无洞察”“分析结 ...
2025-11-13在主成分分析(PCA)、因子分析等降维方法中,“成分得分系数矩阵” 与 “载荷矩阵” 是两个高频出现但极易混淆的核心矩阵 —— ...
2025-11-12大数据早已不是单纯的技术概念,而是渗透各行业的核心生产力。但同样是拥抱大数据,零售企业的推荐系统、制造企业的设备维护、金 ...
2025-11-12在数据驱动的时代,“数据分析” 已成为企业决策的核心支撑,但很多人对其认知仍停留在 “用 Excel 做报表”“写 SQL 查数据” ...
2025-11-12金融统计不是单纯的 “数据计算”,而是贯穿金融业务全流程的 “风险量化工具”—— 从信贷审批中的客户风险评估,到投资组合的 ...
2025-11-11这个问题很有实战价值,mtcars 数据集是多元线性回归的经典案例,通过它能清晰展现 “多变量影响分析” 的核心逻辑。核心结论是 ...
2025-11-11在数据驱动成为企业核心竞争力的今天,“不知道要什么数据”“分析结果用不上” 是企业的普遍困境 —— 业务部门说 “要提升销量 ...
2025-11-11在大模型(如 Transformer、CNN、多层感知机)的结构设计中,“每层神经元个数” 是决定模型性能与效率的关键参数 —— 个数过少 ...
2025-11-10形成购买决策的四个核心推动力的是:内在需求驱动、产品价值感知、社会环境影响、场景便捷性—— 它们从 “为什么买”“值得买吗 ...
2025-11-10在数字经济时代,“数字化转型” 已从企业的 “可选动作” 变为 “生存必需”。然而,多数企业的转型仍停留在 “上线系统、收集 ...
2025-11-10在数据分析与建模中,“显性特征”(如用户年龄、订单金额、商品类别)是直接可获取的基础数据,但真正驱动业务突破的往往是 “ ...
2025-11-07在大模型(LLM)商业化落地过程中,“结果稳定性” 是比 “单次输出质量” 更关键的指标 —— 对客服对话而言,相同问题需给出一 ...
2025-11-07在数据驱动与合规监管双重压力下,企业数据安全已从 “技术防护” 升级为 “战略刚需”—— 既要应对《个人信息保护法》《数据安 ...
2025-11-07在机器学习领域,“分类模型” 是解决 “类别预测” 问题的核心工具 —— 从 “垃圾邮件识别(是 / 否)” 到 “疾病诊断(良性 ...
2025-11-06在数据分析中,面对 “性别与购物偏好”“年龄段与消费频次”“职业与 APP 使用习惯” 这类成对的分类变量,我们常常需要回答: ...
2025-11-06