数据分析的几大误区
上大学时,我和另一个姑娘(某理科大神)经常搭伙做饭。有天我俩一起去超市买油,站在琳琅满目的货架前,我直接拎起一瓶,冲她叫:“就拿这瓶吧,最便宜!”姑娘白了我一眼,转头说道:“克单价一点都不便宜好不好!数学是体育老师教的吧?”接着眼神刷刷两下扫完整个货架,心算完毕,拎起另一瓶说:“这克单价最便宜,拿这个!”我当时就囧了,讪讪地拎起油,念叨着:总金额不便宜呢……
大千世界当中,我们总是需要“数据”去辅助下判断、做抉择。生活当中,可能仅需要描述性数据就足够了,比如你买油是看克单价还是总金额。但工作当中,却必须深谙各种复杂的数据分析方法,数据成为建功立业、奖惩论责的重要手段。数据本身是客观的,但如何捯饬数据,却是主观的。数据可以“作弊”,可以有“偏见”,也可以用来糊弄别人,麻痹自己。
所以,知道数据的把戏,比机械地完成数据,对工作的实践意义更大,至少可以保证我们不会被数据“玩弄”:
你买油是按照克单价?还是总金额?这个例子比较简单。实际工作中比这个要复杂很多,比如销售人员的绩效如何评估——应该按照总销售额,还是可比店的销售额?是按照所有产品的销售额?还是新品的销售额?是按照单店绩效?还是单人绩效?是按照工作时间内的绩效?还是不计工作时间、将加班时间也计算在内的绩效?如果是跨国公司,还涉及到用人民币、还是美元计算?
计量单位的不同、测算范畴的不同,得出的结果也就不同——所以,公司开绩效评估大会或者任务指标分配大会,一般就是打数据仗,然后你会发现,结局往往不取决于最准确的数据,而取决于最大的嗓门……
平均数是一个非常强大的描述性统计数据,也被广泛用于各种判断当中,比如时不时会有新闻说“房价在涨”、“我国平均收入水平上升XXX”,“某某学校的升学率高达90%”……平均数最大的问题是,忽略了偏离方差的“异常值”——比如马云的收入就是个异常值。这个时候,就需要再看一看中位数。
每一次销售会,我们会看几个主要数据,类似“单人产量”“单店产量”“流失率”等等。然而,在对这些数据下结论的时候,我们得万分谨慎,因为一方面,它取决于计量单位和范畴,另一方面,还得均衡的看平均数和中位数。如此才能甄别出来,哪些是由于“异常值”造成的偶然现象,而哪些是一直存在的普遍现象,防止看错问题冤枉人。当然有一种情况是不需要区分中位数和平均数的,比如今年北大古生物专业的毕业生就业率(就一个姑娘)。
每个企业的绩效评估方法可能不一样,但逻辑应该相似,对所有衡量指标设置不同权重后,进行综合评估。当然,对于那种只有一个指标(老板心情指标)的公司,统计学表示很无力。
除了绩效评估,最常用“权重”的就是生意预测。不同要素对生意结果的影响力不同,且随时间而变,比如打广告、公关活动、或者店内促销,哪个对生意贡献最大?哪一种具体的广告形式对生意贡献最大?是不是赞助《中国好声音》就一定比投放传统电视广告,带来的销量更大?只有我们知道不同因素的权重,才会做成更加科学的投资决策。
销售额下降了,怎么办?相信大多数销售都会抓狂,开始马不停蹄的琢磨问题解决之道了。但去年我听到了一句特别洒脱的话:“销量下降,有时候只是个现象,并不一定是问题。你怎么知道这不是我们有意为之的呢?”呃…好吧,这豁达和深刻,不是我等凡夫俗子能理解的。
数据往往只表达一种结果。如果想要知道数据背后的动机和原因,还要借助更复杂的统计学手段、或者非数据手段。主动为之的“坏数据”以及被动承受的“坏数据”,两者之间的动机差异,会造成迥然不同的行为结果。比如有一次销售会议,某区域负责人指着自己惨淡的员工流失率指标,轻描淡写的解释说:“高流失率是我主动淘汰了一些人,因XXX原因,下个季度新人马上到岗。”想象一下,如果我们不了解这个动机,可能这位区域负责人就要蹲小黑屋了。
最经典的例子就是收入数据。经常有报道说:公务员收入其实很低,劝大家不要错怪公务员。但问题是,工资收入是低,但非工资收入可能不低。当然,这种情况不仅限于公共组织。其实无论任何组织,只要挣的花的不是自己的钱,就都可能出现这种“工资不等于收入”的情况。
在具体业务中,“精确不等于准确”可能出现在两种情境中——总结归纳、分析预测。
比如消费者调研,一般都会有定性和定量两种方法。如果没有定性分析,定量分析就可能陷入“虚假精确”的陷阱。如果你的调研对象有问题,那么,就算再辛苦的计算和再精确的数据,其实都没有意义。又比如广告测试,精确的测试结果真的有实际意义吗?
又比如销量预测,每个人心里都明白,这是无法准确预测的,你只能无限接近,却不能完全准确,因为“预测未来”本来就是上帝才能搞定的事,所以我们能做的,只能是在保证方向准确的情况下,尽量精确。但也不必过于花费力气、苛求预测数据的精确,因为这不会增加多少实际意义,还不如花多点时间研究其他可操作性强的数据
总之,尽量避免追求虚假的准确和错误的确定性。
我老板的经典口头禅就是:“你们这些人,总是自说自话、以果推因分析法,错把相关性当成因果性,把偶然性当成必然性。”这句口头禅可真是太强大了,因为可应用范围颇广,躺枪几率也颇高,导致我们现在不得不日省三次:“有没有自说自话?有没有以果推因?”
以前还听过一个段子,一个领导手下的两个部门同时做生意报告。A部门搞不清楚自己生意为啥涨,B部门搞不清楚自己生意为啥降,结果最后的生意报告中,两个部门不约而同,提到了同一个原因——天气。只不过,A部门说,因为这段时间按天气冷导致A产品需求增大;B部门说,因为这段时间天气热导致B产品需求减少。我现在觉得吧,多亏这领导不是我老板,否则这两部门可以一起蹲小黑屋了。
这就是统计学最重要的价值——可以帮助我们排除无关因素,因为这些无关因素太容易让大家混淆了因果性和相关性的区别。
有公司做新品上市的消费者调研时,最后需求是:只要超过45%的人喜欢,就决定上市这个新品。其实这压根不用调研了。如果这个新品和对照组的产品本身差距不明显的话,且样本量足够大,肯定会有50%的人喜欢,这就是大数定律的基本常识。
初三接近中考时,老师突然要调座位,而且这次不按学号、不按个子、也不按“好帮差”原则,而是直接按成绩调座位——成绩好的人坐左边两组,成绩不好的坐右边两组。当时我还很懵懂,不明白为啥非要在复习备考的紧张时刻折腾调座位,因为和我关系非常好的小伙伴们都被调到右边两组了。
后来我终于懂了。因为接下来的两周,右边座位的同学们,一个接一个的被老师叫走谈话,然后,又一个接一个的,退学了。我想我这辈子都忘不了,那些同学一声不吭的低头收拾完书包,佝偻着腰沉重的走出教室前,回头望过来的最后一眼。那种悲伤和无奈的眼神,让我至今想起来都心酸喉梗。然后,当年我校的升学率就非常高。
企业当中数据作弊和偏见也不少见,比如通过压低头一年的数据、使得第二年增长率更高;比如选择错误的样本数据做市场调研;又比如常见的会计数据作弊。
总之,数据的把戏大有乾坤。一方面,我们需要数据去分析问题、印证结论,没有数据的虚谈是没有意义的,也是很难有定论的。另一方面,数据不是全部,我们不能成为“数据教”的人。过于追求数据的完美精确,容易让我们忽略那些无法用数据表现的关键要素,比如人的态度、动机和精神气;也容易忽略企业的最终目标。其实,在不该使用数据的使用数据,可能比在该用数据的时候没有数据,结果更可怕。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-12以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-11