为什么说「大数据」可能被人们过度神化了
如果说下水道是一个城市的良心,那么厕所就是一座城市的门脸。
很多年前,人们就发现一个有意思的现象:一个城市的文明程度可以从其厕所的卫生程度反映出来,厕所越干净、城市越发达。但直到今天,大数据无法解释这背后的原因:究竟是城市发达了厕所自然就干净,还是厕所干净了也会促进城市的发展。
对于这样「先有鸡还是先有蛋的问题」,还需要大数据加传统民调和小数据的结合才有可能找到答案。
1. 谷歌为何只猜对了一次?
感谢维克托·迈尔·舍恩伯格、马云们孜孜不倦地布道,大数据现在几乎成了全球先进生产力的标志,而且几乎被赋予万能的希望。
在《大数据时代》一书中,舍恩伯格的确总结了相对传统小数据的三大特点:非随机样本,而是全体数据;非精确性,而是混杂性;非因果关系,而是相关关系。
最先证实大数据强大能力的乃是谷歌。
2009年在H1N1爆发几周前,谷歌公司的工程师们在Nature上发表了一篇论文介绍GFT,成功预测了H1N1在全美范围的传播,甚至具体到特定的地区和州,而且判断非常及时,令公共卫生官员们和计算机科学家们倍感震惊。
但是,在随后的几年当中,谷歌这一预测却屡屡失灵,以至于在2014年美国著名的《科学》期刊刊登的一篇题为《谷歌流感的寓言:大数据分析的陷阱》的文章称:
很大一部分与疾控中心流感发生率数据相关的搜索词,并非是得流感的人引起的,而是由影响搜索模式和流感传播的第三个因素(季节)产生的。谷歌流感趋势的开发人员发现那些特定的搜索词是随时间而发生变化的,但这些搜索显然与病毒无关。比如,有的人可能仅仅是因为看了一部电影或者文章而去搜索流感。
调查撰写这篇文章的哈佛大学、美国东北大学的几位学者认为,大数据的分析是很复杂的,但由于大数据的收集过程,很难保证像传统小数据那样缜密,难免会出现失准的情况。最核心的问题是,大数据分析侧重相关性,导致在推导因果关系时容易出现误差。
他们建议,应该把大数据与小数据相结合,以「全数据」思维取代「大数据」思维。
2. 了不起的盖洛普
前不久,清华附小六年级学生一篇题为《大数据帮你进一步认识苏轼》的小论文,被冠以大数据之名,这里的大数据其实是不折不扣的小数据,更确切地说只是用量化方式呈现了一个「数据化」的苏东坡。
这只是「炒作大数据」的一个缩影。
事实上,全球拥有真正意义上大数据的公司并不多,而拥有分析大数据能力的公司更是凤毛麟角。斯坦福大学统计学教授Trevor Hastie曾比喻分析大数据的过程,就好比在一大堆干草垛中发现有意义的「针」,而困难之处恰恰在于很多干草看起来也像针。
大数据的不易得和分析的高难度,注定了其进入门槛的高耸。但是,传统民意调查所形成的小数据有着显著的优势:样本的充分代表性、可操作、快速采集分析。
上世纪三十年代,美国数学家乔治·盖洛普通过建立与美国全体选民结构一致的5000个调查样本,成功地预测了罗斯福将赢得1936年总统选举。这位宣称「我能用统计的方法证明上帝的存在」的盖洛普先生开启了现代民意测验的商业化道路。
在大数据鱼龙混杂的浊流中,传统民意调查无疑是一个更靠谱的预测方式。二胎政策出台后,如果想了解人们真实的生育目的,按照大数据全样本的标准几乎无法操作,但是通过传统民调却能够快速了解情况。
南京航空航天大学教授张杰,在2016年初针对10万人的问卷调查显示,近四成人没有生育二胎的打算,已有女孩的家庭生育欲望更强,时间精力、经济状况不佳是国人不敢生二胎的主要原因。
此次二胎意愿调查之所以能回收高达10万份问卷,一则说明受访者对这个问题关注面比较广,二则体现了在线问卷更有利于保护隐私的优点,毕竟与生育相关的话题涉及个人隐私,传统线下一对一问卷调查,会让受访者不太自在。
3. 激活沉默的大多数
如果说大数据只有大机构才有能力获取,如今类似在线民调小工具则赋能普通大众获得便利的调研能力,比大数据更能体现互联网的普惠和平权特征。
中国的网民人数已经超过7亿,互联网的渗透率超过50%,但是网络舆论并不等同于网络民意,一个重要原因是,网民不能代表现实中全体公民,而且活跃网民也不能代表全体网民。
复旦大学传播与国家治理研究中心研究团队在2014年的一份研究报告称:
4. 有民调处有金山
大数据可以帮助我们推导出著名的口红效应(因经济萧条而导致口红热卖)、厕所效应(城市越发达厕所越干净)、以及著名的啤酒与尿布销售故事,但无法给出因果分析,要想从中得到具体的商业建议,还得需要提取样本进行传统调查式的分析。
如果说,大数据分析可以说是一种纵向的推断,是变量间相关关系的推断,那么问卷调查是基于样本推断总体,是一种横向的、由点到面的推断,尤其有助于商家快速了解用户偏好。
大数据连接了千百万的数据点,可以准确地产生相互关系。但是,当人类按照自己的习惯行动时,大数据分析通常不会十分准确。所以挖掘用户需求时,在大数据之外,更重要的是通过对一个小群体的亲身观察和小数据常识,捕捉到这个社会群体所体现出的文化欲望。
相比大数据,人们更容易从小数据中获得更有价值的商业洞察。
腾讯曾联合一家牙膏企业,向三万多人发起了一次过敏口腔健康调查问卷,结果发现,发现口腔问题时,越年轻的受调查者越倾向于等待口腔问题自行缓解,但女性比男性更愿意尝试购买多种口腔护理用品。同时发现,漱口水是牙膏之外最受欢迎的口腔护理产品。
这份调查对于生产口腔护理产品的公司来说,至少提供了三点有价值的市场信息:第一、开展针对年轻消费者的口腔健康意识教育,有助于扩大用户群体;第二、加大针对女性的市场促销活动,有助于进一步刺激销售增长;第三,漱口水的市场空间广大,具备开拓价值。
在互联网时代,通过在线民调形成针对用户个人的小数据,依然是了解用户偏好的捷径。但无论是传统的小样本民调,还是全样本的大数据分析,事实上面临着一个共同难题:如何提升数据分析能力,如何将数据与人的心理、行为联系起来。这正是预测的神秘和魅力所在。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06在现代企业中,数据分析师扮演着至关重要的角色。每天都有大量数据涌入,从社交媒体到交易平台,数据以空前的速度和规模生成。面 ...
2025-01-06在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-03在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-03在数据分析的江湖里,有两个阵营总是争论不休。一派信奉“大即是美”,认为数据越多越好;另一派坚守“小而精”,力挺质量胜于规 ...
2025-01-02数据分析是一个复杂且多维度的过程,从数据收集到分析结果应用,每一步都是对信息的提炼与升华。可视化分析结果,以图表的形式展 ...
2025-01-02在当今的数字化时代,数据分析师扮演着一个至关重要的角色。他们如同现代企业的“解密专家”,通过解析数据为企业提供决策支持。 ...
2025-01-02数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪 ...
2024-12-31数据分析,听起来好像是技术大咖的专属技能,但其实是一项人人都能学会的职场硬核能力!今天,我们来聊聊数据分析的核心流程,拆 ...
2024-12-31提到数据分析,你脑海里可能会浮现出一群“数字控”抱着电脑,在海量数据里疯狂敲代码的画面。但事实是,数据分析并没有你想象的 ...
2024-12-31关于数据分析师是否会成为失业高危职业,近年来的讨论层出不穷。在这个快速变化的时代,技术进步让人既兴奋又不安。今天,我们从 ...
2024-12-30