世界上有三种谎言——谎言,该死的谎言,以及统计数据。引自马克·吐温。本文的作者站在这个信息爆炸的时代,从多个角度展示了数据的欺骗性。有些是基于偏见,有些是方法不对,但总之,用数据说话,可能并没有想象的那么简单可靠。
这个世界不断的告诉我们数据会告诉你真相。但是同样的数据往往会告诉我们不同的故事,取决于是何种数据以及你如何解读。两个类似的数据,由于人们进行不同的解读,从而表现出两个截然不同的结论,这样的情况让我很怀疑什么才是真相。数据是人们手里的工具,而我们可以按我们的需要进行解释。需要澄清的是,这个问题并不是想说我们为了自己的目的而刻意隐瞒数据,虽然人们有的时候也有可能会这么做。我只是想强调,人类有可能会在解读数据的时候带有无意识的偏见。
在大数据时代,这是一个巨大的难题。当你看着不同的数据在同一个问题上向你展现完全不同的情况时,你如何找出问题的答案?
无论何时,数据都是可以被操纵的
Pam Baker是《数据占卜者:大数据策略》一书的作者,在书中,她从数据科学的角度来论述这一问题,但是她还是强调,首先你必须问对问题,才能得到正确的答案。
Baker在一封电子邮件中向我解释:“数据是根据其与精确问题的相关性被拉动的。算法包括对于问题尽可能明确的输入和回答方式。”
她说数据科学家有不少工具来做好这项工作,但是错误依然有可能发生。“当然总是有犯错的可能,但是数据科学和数据科学早在大数据出现之前就已经解决了很多的问题。事实上,如果错误的数据点使用的数据和算法是有缺陷的,那么答案就会是错误的或者有缺陷的。”
到目前为止这些都还是有效的,但是我们很清楚数据科学家的局限性。这么多公司中,我好像还没有听过哪家公司表达这样的意思,他们都在讨论数据,但是大部分公司都缺乏经验来理解这样一件事情:数据可以被操纵,给你你想要的答案。
早些时候,我在在波士顿的Gilbane大会上听到一个演讲者说了一大堆类似于,科学家说人们没有装那么多的应用,平均每个人只安装了10个。他同时也表示90%的人不介意收到垃圾短信。不过要知道,他所在的公司是一家专门为短信广告提供解决方案的公司。他分享了一大堆数据,给你提出了一大堆建议,但是如果你真的以这个为依据来设计方案,为你做的应用进行推广,那就真是傻缺了。
这个演讲者接下来展示了一个数据,这个数据告诉我们,每分钟都有15.4万个应用被下载。可是如果每个人只装少于10个应用,那怎么可能会保持在同一时间以那种节奏同时被下载?当你能清楚的认识数据之间的相互矛盾之处,就能理解,这些数据让问题变得不那么清晰。也许那句老谚语比我们想象的更有道理:“世界上有三种谎言:谎言,该死的谎言,以及统计数据。”
掌握数据不难,关键是学会数据的分析、判断
而当我们把数据放到普通人手里,而不是像Baker建议的那样交给数据科学家,那结果可能会很糟。尤其是这些试图利用数据贩卖他们的产品或者服务的营销者手中。更糟的是他们可能会试图用错误的信息来描绘他们美妙的市场结论。
Digital Clarity集团总裁Scott Liewehr表示,这样的情况非常危险。他告诉我,市场研究必须下大力气建立有效的调研,否则他们就有可能使用错误的数据得出错误的结论浪费公司资源。“对于市场营销人员来说,这是一个很大的挑战,每个人都可以拿着数据说任何他们想说的故事。”Liewehr告诉我。“如果他们不知道如何进行调研分析,那就有可能会造成一系列错误决定。”
Baker也同意上面的观点。但是她同时也说,商家也可以为数据整理提供帮助,因为他们的市场人员比数据专家更了解市场动态,如果能把这两者结合到一起,那就能够产生更好的结果。“有的时候市场人员和销售人员比数据科学家更知道该问些什么。这也就是为什么我们需要一个由不同的人组成的数据团队。”她说。
但是她同时也说,即便是可靠的人也并非总是能得到正确的信息。“有的时候企业用户会痛苦挣扎,结果却得出了错误的结论,因为他们不懂统计方法,以及其他必要的方法来完成这项工作。
即便你很小心,数据也并总能让你得出正确的结论
上周我做了一篇报道,是关于最流行的企业同步与分享工具的,而这个工具是基于541 Research的研究的。现在这是一家非常有信誉的公司,他们在公开研究成果之前已经运行着两个研究多个月了。我并非想对他们的研究成果进行毁谤,但是在那篇报道中我也怀疑他们是否问对了问题或者问对了人。他们不应该只是简单的看看一般使用率,而是应该仔细的询问企业用户许可和普通用户许可的比例,如果他们这样做,是不是会看到完全不同的结论?发觉数据并非你想像的那么简单,也并非我在这篇文章中所说的研究那么简单。
首先,451 Research的数据发现超过40%的有效报告使用Dropbox,这个比例远远高于其他企业,我报道这一发现的时候都吓了一跳。Box是整个云计算的典范企业,在市场调查中位列第四,受访者中大约有15%的人选择Box,但是这并不一定是整个故事的全貌。
Ilya Fushman是Dropbox企业产品的主管,他上周告诉我,Dropbox已经拥有了10万个商务用户(既有很小的企业,也有比较大的企业。)考虑到Dropbox是2013年4月刚开放这个产品,这个数字真是非常惊人。有趣的是,作为比较,Box告诉我他们拥有3.9万个企业用户,但是数量不能说明所有问题,因为Box拥有一些非常大的用户。
例如,Box的客户中拥有Eli Lilly,丰田,梦工厂,康卡斯特,MD Andersen以及葛兰素史克等巨头,而最近刚刚将30万份企业授权卖给GE。如果你把Schneider Electric的6.5万份许可,以及保洁的4.4万份许可的算上,你一定可以得出跟451 Research对于企业用户完全不同的结论,即便企业的总数量确实不同。
根据记录,我们很难发现Dropbox拥有多少用户,因为他们并不透露这样的数据,但是他们的大企业用户也包括很多品牌公司,比如Hearst,Hyatt,MIT以及新闻集团。而Dropbox也将一些比较小的企业的商标放在了他们的网站上。
Alan Pelz是451 Research的一位分析员,同时也是本研究的一位作者。他表示,他的团队依然在致力于优化方法,而他们现在公布的数据还只是他们长长的市场研究进程的一个开头而已。
“我认为十月份的调查数据像我们告诉我们一些新的事实——首先,Dropbox在企业领域拥有大量拥趸(这并不让任何人感到吃惊,尤其是他们的竞争对手)。这个市场还很不成熟,但是处在一个增长的阶段,而且现在很多的企业并不愿意把他们的数据放到公共云端。这些发展趋势随着时间的发展会变得非常有趣。而这个新的研究所要挖掘的信息就是谁将会真正成长出价值,而且随时间不断变化。而且我们正在为这个新出现的领域和新层面做细分市场研究以及收入模型的研究。”他在给我的电子邮件写道。
数据确实有巨大的价值,但是即便你非常小心,但依然有可能因为数据的歧义以及麻烦而得出错误的答案。因为即便我们拥有所有的数据,但仍然和现实会有偏差。而且你必须要保证你的数据对于特定的问题来说是准确的,而且遵循最佳的数据归纳法。即使这样,也有可能得出完全意想不到的结果。看来,跟随数据得出结论并不是像说的那么简单。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-12以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-11