热线电话:13121318867

登录
首页大数据时代【干货】7类常见的统计分析错误
【干货】7类常见的统计分析错误
2025-02-02
收藏

作者:CDA持证人 余治国

一般各平台出薪资报告,都会哀嚎遍野。举个例子,去年某招聘平台发布《中国女性职场现状调查报告》,报告中说,从薪酬来看,女性的平均薪酬为8689元/月,与男性的9942元/月相差1253元,报告发布后,立马引起网友热议。

大部分民众对平均工资、平均年终奖、人均GDP是不买账的,为什么?这就是犯了统计上滥用平均值的错误。

01滥用平均值

问题

  • 对于偏态数据大多数样本达不到/或远超过平均值水平;

  • 平均值没有代表意义;只看平均值会忽略波动。

原因

  • 平均值的信息量有限;不能告诉你分布形态和波动;

  • 平均值容易被极端值拉偏;

  • 不同性质的数据被放一起机械的被平均了(需要分层进行分析)。

应对策略

  • 明确平均值使用的前提条件;正确的应用平均值;

  • 除了关注平均值外,还要搞清楚数据的分布形态;

  • 结合其它指标一起分析(如中位数,极差,标准差等)

滥用平均值的其他案例

    1. 专家说,今年全国平均降雨量和去年同期相同,气候正常。(但专家不告诉你北方大旱南方大涝);
    1. 武汉常年平均温度17.2°C,昆明常年平均温度17°C,所以武汉和昆明一样气候宜人;
    1. A产品不良率为2%,B产品的不良率为0%;AB两个产品的平均不良率是1%?
    1. 去年我们一共有50个客诉,平均结案时间是58天,公司规定的目标是60天内要结案;所以我们的结案很准时。

对于偏态分布,平均值不等于中位数

某产品寿命服从正态分布,平均值为10000小时,有50%的产品寿命会大于10000小时。

某产品寿命服从指数分布,平均值为10000小时,只有36.79%的产品寿命会大于10000小时。

计算平均值不要忽略权重

例:已知某产品每个季度的不良率,求全年度平均不良率。

错误答案1:(1.25%+1.14%+1.15%+1.05)/4

错误答案2:(1.25%*1.14%*1.15%*1.05%)^1/4

正确答案1: (250+240+300+199)/(20000+21000+26000+19000)

正确答案2: (1.25%*20000+1.14%*21000+1.15%*2 6000+1.05%*19000)/ (20000+210000+26000+19000)

02直接拿样本统计量代替总体参数

问题

  • 直接拿样本统计量代替总体参数可能会得出错误结论。

分析

  • 由于抽样误差存在,样本统计量和总体参数之间通常会存在差异;

  • 样本均值通常不会刚好等于总体均值,样本不良率通常不会刚好等于总体不良率

  • 样本标准差通常不会刚好等于总体标准差……

应对策略

  • 根据样本来推断总体时通常需要用到置信区间或假设检验

案例一

案例二

03样本量不足

样本量较小时样本均值或比率波动较大

QE:你看,7号这天原材料不良率太高了,达到停线标准了!你必须把库存都退给供应商!

SQE:这几天使用的原材料都是同一供应商同一批次的,平均不良率为0.13%,质量没问题!

案例

现象

  • 在美国,肾癌发生率最低的县往往位于中西部、南部和西部的农村地区;但肾癌发生率最高的县也往往位于中西部、南部和西部的农村地区。

真实原因

  • 美国中西部、南部、西部的区域的县的人数很少,以县为单位统计肾癌发生率时样本量较小,发生率波动很大。

04p>0.05就接受原假设

案例

20世纪70年代,美国为减少红灯时汽车在路口等待造成的汽油浪费,决定评估是否允许红灯时右转。弗吉尼亚公路与运输局研究后报告声称,允许红灯右转后事故发生率没有显著增加(p>0.05)。若干年后研究发现,允许红灯右转后汽车撞毁的频率比以前提高了20%,行人被撞的频率比以前提高了60%。

05盲目套用正态分布

场景

  • 我在进行正态性检验时发现我的数据不服从正态分布,怎么办?

  • 我的数据不服从正态分布,我用BOX-COX转换或用Johonson变换后还是不服从正态分布,怎么办?

  • 拿到数据就用正态分布来进行过程能力分析。

问题

原因

  • 有很多原因导致数据不服从正态分布;

  • 数据不正态不等于过程不受控;

  • 数据不正态不等于数据造假。

应对对策

数据不正态的常见原因

正态分布数据过程能力分析

06错把相关当因果

相关不等于因果,但因果必相关;因果关系是相关关系的子集;相关关系可以为寻找因果关系提供指引和线索;采取改善措施要针对真正的原因来改善,而不是针对相关关系采取措施。

07回归分析过度外推

错误案例

  • 刚出生的婴儿一个月可以长5cm;如果按这个速度预测,他30岁时可以长到多高?

  • 某公司前年销量增长了10%;去年增长了10%,今年也增长了10%;你能用这个增长速度去预测它20年后的销量吗?

抓住机遇,狠狠提升自己

随着各行各业进行数字化转型,数据分析能力已经成了职场的刚需能力,这也是这两年CDA数据分析师大火的原因。和领导提建议再说“我感觉”“我觉得”,自己都觉得心虚,如果说“数据分析发现……”,肯定更有说服力。想在职场精进一步还是要学习数据分析的,统计学、概率论、商业模型、SQL,Python还是要会一些,能让你工作效率提升不少。备考CDA数据分析师的过程就是个自我提升的过程。

CDA 考试官方报名入口:https://www.cdaglobal.com/pinggu.html

最新资讯
更多
客服在线
立即咨询