热线电话:13121318867

登录
首页大数据时代【干货】7类常见的统计分析错误
【干货】7类常见的统计分析错误
2024-09-11
收藏
前段时间,一招聘平台发布《2023中国女性职场现状调查报告》,从薪酬来看,2023年,女性的平均薪酬为8689元/月,与男性的9942元/月相差1253元,报告发布后,立马引起网友热议。
裁剪旋转 (44).png
裁剪旋转 (45).png
大部分民众对平均工资、平均年终奖、人均GDP是不买账的,为什么?这就是犯了统计上滥用平均值的错误。

01滥用平均值

问题:对于偏态数据大多数样本达不到/或远超过平均值水平;平均值没有代表意义;只看平均值会忽略波动。

原因:平均值的信息量有限;不能告诉你分布形态和波动;平均值容易被极端值拉偏;不同性质的数据被放一起机械的被平均了(需要分层进行分析)。

应对策略:明确平均值使用的前提条件;正确的应用平均值;除了关注平均值外,还要搞清楚数据的分布形态;结合其它指标一起分析(如中位数,极差,标准差等)

滥用平均值的其他案例

1. 专家说,今年全国平均降雨量和去年同期相同,气候正常。(但专家不告诉你北方大旱南方大涝);
2. 武汉常年平均温度17.2°C,昆明常年平均温度17°C,所以武汉和昆明一样气候宜人;
3. A产品不良率为2%,B产品的不良率为0%;AB两个产品的平均不良率是1%?
4. 去年我们一共有50个客诉,平均结案时间是58天,公司规定的目标是60天内要结案;所以我们的结案很准时。

对于偏态分布,平均值不等于中位数

裁剪旋转 (46).png
某产品寿命服从正态分布,平均值为10000小时,有50%的产品寿命会大于10000小时。
裁剪旋转 (47).png
某产品寿命服从指数分布,平均值为10000小时,只有36.79%的产品寿命会大于10000小时。

计算平均值不要忽略权重

例:已知某产品每个季度的不良率,求全年度平均不良率。

裁剪旋转 (48).png

错误答案1:(1.25%+1.14%+1.15%+1.05)/4
错误答案2:(1.25%*1.14%*1.15%*1.05%)^1/4
正确答案1:
(250+240+300+199)/(20000+21000+26000+19000)
正确答案2:
(1.25%*20000+1.14%*21000+1.15%*2
6000+1.05%*19000)/ (20000+210000+26000+19000)

直接拿样本统计量代替总体参数

问题:直接拿样本统计量代替总体参数可能会得出错误结论

分析:由于抽样误差存在,样本统计量和总体参数之间通常会存在差异;样本均值通常不会刚好等于总体均值,样本不良率通常不会刚好等于总体不良率;样本标准差通常不会刚好等于总体标准差……

应对策略:根据样本来推断总体时通常需要用到置信区间或假设检验

案例一
裁剪旋转 (49).png

案例二

裁剪旋转 (50).png

03样本量不足

样本量较小时样本均值或比率波动较大
裁剪旋转 (51).png
QE:你看,7号这天原材料不良率太高了,达到停线标准了!你必须把库存都退给供应商!

SQE:这几天使用的原材料都是同一供应商同一批次的,平均不良率为0.13%,质量没问题!

案例

现象:在美国,肾癌发生率最低的县往往位于中西部、南部和西部的农村地区;但肾癌发生率最高的县也往往位于中西部、南部和西部的农村地区。

真实原因:美国中西部、南部、西部的区域的县的人数很少,以县为单位统计肾癌发生率时样本量较小,发生率波动很大。

裁剪旋转 (52).png

04 p>0.05就接受原假设

案例

20世纪70年代,美国为减少红灯时汽车在路口等待造成的汽油浪费,决定评估是否允许红灯时右转。弗吉尼亚公路与运输局研究后报告声称,允许红灯右转后事故发生率没有显著增加(p>0.05)。若干年后研究发现,允许红灯右转后汽车撞毁的频率比以前提高了20%,行人被撞的频率比以前提高了60%。


05 盲目套用正态分布

场景:我在进行正态性检验时发现我的数据不服从正态分布,怎么办?我的数据不服从正态分布,我用BOX-COX转换或用Johonson变换后还是不服从正态分布,怎么办?拿到数据就用正态分布来进行过程能力分析。

问题:并非所有数据都服从正态分布

原因:有很多原因导致数据不服从正态分布;数据不正态不等于过程不受控;数据不正态不等于数据造假。

应对对策

数据不服从正态分布时先要分析清楚不服从正态分布的原因,再采取合适对策;认识到除正态分布外,还有很多可能的分布。


数据不正态的常见原因

裁剪旋转 (53).png

正态分布数据过程能力分析


裁剪旋转 (54).png

06 错把相关当因果


相关不等于因果,但因果必相关;因果关系是相关关系的子集;相关关系可以为寻找因果关系提供指引和线索;采取改善措施要针对真正的原因来改善,而不是针对相关关系采取措施。

裁剪旋转 (55).png

07 回归分析过度外推

错误案例

刚出生的婴儿一个月可以长5cm;如果按这个速度预测,他30岁时可以长到多高?某公司前年销量增长了10%;去年增长了10%,今年也增长了10%;你能用这个增长速度去预测它20年后的销量吗?

裁剪旋转 (57).png

扫码关注CDA认证小程序,了解更多数据分析干货




开学季福利来了!!!
为了激励更多有志于数据分析领域的学子勇攀高峰,CDA 认证考试中心携手各授权合作伙伴,隆重推出“开学季奖学金活动”,为您的数据梦想插上翅膀!

活动链接:https://www.cdaglobal.com/article/466.html

数据分析咨询请扫描二维码

最新资讯
更多
客服在线
立即咨询