为什么说「大数据」可能被人们过度神化了
如果说下水道是一个城市的良心,那么厕所就是一座城市的门脸。
很多年前,人们就发现一个有意思的现象:一个城市的文明程度可以从其厕所的卫生程度反映出来,厕所越干净、城市越发达。但直到今天,大数据无法解释这背后的原因:究竟是城市发达了厕所自然就干净,还是厕所干净了也会促进城市的发展。
对于这样「先有鸡还是先有蛋的问题」,还需要大数据加传统民调和小数据的结合才有可能找到答案。
1. 谷歌为何只猜对了一次?
感谢维克托·迈尔·舍恩伯格、马云们孜孜不倦地布道,大数据现在几乎成了全球先进生产力的标志,而且几乎被赋予万能的希望。
在《大数据时代》一书中,舍恩伯格的确总结了相对传统小数据的三大特点:非随机样本,而是全体数据;非精确性,而是混杂性;非因果关系,而是相关关系。
最先证实大数据强大能力的乃是谷歌。
2009年在H1N1爆发几周前,谷歌公司的工程师们在Nature上发表了一篇论文介绍GFT,成功预测了H1N1在全美范围的传播,甚至具体到特定的地区和州,而且判断非常及时,令公共卫生官员们和计算机科学家们倍感震惊。
但是,在随后的几年当中,谷歌这一预测却屡屡失灵,以至于在2014年美国著名的《科学》期刊刊登的一篇题为《谷歌流感的寓言:大数据分析的陷阱》的文章称:
很大一部分与疾控中心流感发生率数据相关的搜索词,并非是得流感的人引起的,而是由影响搜索模式和流感传播的第三个因素(季节)产生的。谷歌流感趋势的开发人员发现那些特定的搜索词是随时间而发生变化的,但这些搜索显然与病毒无关。比如,有的人可能仅仅是因为看了一部电影或者文章而去搜索流感。
调查撰写这篇文章的哈佛大学、美国东北大学的几位学者认为,大数据的分析是很复杂的,但由于大数据的收集过程,很难保证像传统小数据那样缜密,难免会出现失准的情况。最核心的问题是,大数据分析侧重相关性,导致在推导因果关系时容易出现误差。
他们建议,应该把大数据与小数据相结合,以「全数据」思维取代「大数据」思维。
2. 了不起的盖洛普
前不久,清华附小六年级学生一篇题为《大数据帮你进一步认识苏轼》的小论文,被冠以大数据之名,这里的大数据其实是不折不扣的小数据,更确切地说只是用量化方式呈现了一个「数据化」的苏东坡。
这只是「炒作大数据」的一个缩影。
事实上,全球拥有真正意义上大数据的公司并不多,而拥有分析大数据能力的公司更是凤毛麟角。斯坦福大学统计学教授Trevor Hastie曾比喻分析大数据的过程,就好比在一大堆干草垛中发现有意义的「针」,而困难之处恰恰在于很多干草看起来也像针。
大数据的不易得和分析的高难度,注定了其进入门槛的高耸。但是,传统民意调查所形成的小数据有着显著的优势:样本的充分代表性、可操作、快速采集分析。
上世纪三十年代,美国数学家乔治·盖洛普通过建立与美国全体选民结构一致的5000个调查样本,成功地预测了罗斯福将赢得1936年总统选举。这位宣称「我能用统计的方法证明上帝的存在」的盖洛普先生开启了现代民意测验的商业化道路。
在大数据鱼龙混杂的浊流中,传统民意调查无疑是一个更靠谱的预测方式。二胎政策出台后,如果想了解人们真实的生育目的,按照大数据全样本的标准几乎无法操作,但是通过传统民调却能够快速了解情况。
南京航空航天大学教授张杰,在2016年初针对10万人的问卷调查显示,近四成人没有生育二胎的打算,已有女孩的家庭生育欲望更强,时间精力、经济状况不佳是国人不敢生二胎的主要原因。
此次二胎意愿调查之所以能回收高达10万份问卷,一则说明受访者对这个问题关注面比较广,二则体现了在线问卷更有利于保护隐私的优点,毕竟与生育相关的话题涉及个人隐私,传统线下一对一问卷调查,会让受访者不太自在。
3. 激活沉默的大多数
如果说大数据只有大机构才有能力获取,如今类似在线民调小工具则赋能普通大众获得便利的调研能力,比大数据更能体现互联网的普惠和平权特征。
中国的网民人数已经超过7亿,互联网的渗透率超过50%,但是网络舆论并不等同于网络民意,一个重要原因是,网民不能代表现实中全体公民,而且活跃网民也不能代表全体网民。
复旦大学传播与国家治理研究中心研究团队在2014年的一份研究报告称:
4. 有民调处有金山
大数据可以帮助我们推导出著名的口红效应(因经济萧条而导致口红热卖)、厕所效应(城市越发达厕所越干净)、以及著名的啤酒与尿布销售故事,但无法给出因果分析,要想从中得到具体的商业建议,还得需要提取样本进行传统调查式的分析。
如果说,大数据分析可以说是一种纵向的推断,是变量间相关关系的推断,那么问卷调查是基于样本推断总体,是一种横向的、由点到面的推断,尤其有助于商家快速了解用户偏好。
大数据连接了千百万的数据点,可以准确地产生相互关系。但是,当人类按照自己的习惯行动时,大数据分析通常不会十分准确。所以挖掘用户需求时,在大数据之外,更重要的是通过对一个小群体的亲身观察和小数据常识,捕捉到这个社会群体所体现出的文化欲望。
相比大数据,人们更容易从小数据中获得更有价值的商业洞察。
腾讯曾联合一家牙膏企业,向三万多人发起了一次过敏口腔健康调查问卷,结果发现,发现口腔问题时,越年轻的受调查者越倾向于等待口腔问题自行缓解,但女性比男性更愿意尝试购买多种口腔护理用品。同时发现,漱口水是牙膏之外最受欢迎的口腔护理产品。
这份调查对于生产口腔护理产品的公司来说,至少提供了三点有价值的市场信息:第一、开展针对年轻消费者的口腔健康意识教育,有助于扩大用户群体;第二、加大针对女性的市场促销活动,有助于进一步刺激销售增长;第三,漱口水的市场空间广大,具备开拓价值。
在互联网时代,通过在线民调形成针对用户个人的小数据,依然是了解用户偏好的捷径。但无论是传统的小样本民调,还是全样本的大数据分析,事实上面临着一个共同难题:如何提升数据分析能力,如何将数据与人的心理、行为联系起来。这正是预测的神秘和魅力所在。
数据分析咨询请扫描二维码
在当今以数据为导向的商业环境中,数据分析师的角色变得越来越重要。无论是揭示消费者行为的趋势,还是优化企业运营的效率,数据 ...
2024-11-17金融数学是一门充满挑战和机遇的专业,它将数学、统计学和金融学的知识有机结合,旨在培养能够运用数学和统计方法解决复杂金融市 ...
2024-11-16在信息时代的浪潮中,大数据已成为推动创新的重要力量。无论是在商业、医疗、金融,还是在日常生活中,大数据扮演的角色都愈发举 ...
2024-11-16随着大数据技术的迅猛发展,数据已经成为现代商业、科技乃至生活各个方面的重要资产。大数据专业的毕业生在这一变革背景下,拥有 ...
2024-11-15随着大数据技术的迅猛发展,数据已经成为现代商业、科技乃至生活各个方面的重要资产。大数据专业的毕业生在这一变革背景下,拥有 ...
2024-11-15在快速演变的数字时代,数据分析已成为多个行业的核心驱动力。无论你是刚刚踏入数据分析领域,还是寻求进一步发展的专业人士,理 ...
2024-11-15Python作为一种通用编程语言,以其简单易学、功能强大等特点,成为众多领域的核心技术驱动者。无论是初学者还是有经验的编程人员 ...
2024-11-15在当今数据驱动的世界中,数据分析已成为许多行业的基础。无论是商业决策,产品开发,还是市场策略优化,数据分析都扮演着至关重 ...
2024-11-15数据分析作为现代商业和研究领域不可或缺的一部分,吸引了越来越多的初学者。然而,自学数据分析的过程中,初学者常常会遇到许多 ...
2024-11-15在当今的数据驱动世界中,机器学习方法在数据挖掘与分析中扮演着核心角色。这些方法通过从数据中学习模式和规律来构建模型,实现 ...
2024-11-15随着数据在各个行业的重要性日益增加,数据分析师在商业和技术领域的角色变得至关重要。其核心职责之一便是通过数据可视化,将复 ...
2024-11-15数据分析师的职责不仅仅局限于解析数据和得出结论,更在于将这些复杂的信息转换为清晰、易懂且具有影响力的沟通。良好的沟通能力 ...
2024-11-15数字化转型是企业提升竞争力和实现可持续发展的关键路径。面对快速变化的市场环境,以及技术的飞速发展,企业在数字化转型过程中 ...
2024-11-15CDA数据分析师认证:CDA认证分为三个等级:Level Ⅰ、Level Ⅱ和Level Ⅲ,每个等级的报考条件如下: Le ...
2024-11-14自学数据分析可能是一条充满挑战却又令人兴奋的道路。随着数据在现代社会中的重要性日益增长,掌握数据分析技能不仅能提升你的就 ...
2024-11-14数据分析相关职业选择 数据分析领域正在蓬勃发展,为各种专业背景的人才提供了丰富的职业机会。从初学者到有经验的专家,每个人 ...
2024-11-14数据挖掘与分析在金融行业的使用 在当今快速发展的金融行业中,数据挖掘与分析的应用愈发重要,成为驱动行业变革和提升竞争力的 ...
2024-11-14学习数据挖掘需要掌握哪些技能 数据挖掘是一个不断发展的领域,它结合了统计学、计算机科学和领域专业知识,旨在从数据中提取有 ...
2024-11-14统计学作为一门基于数据的学科,其广泛的应用领域和多样的职业选择,使得毕业生拥有丰厚的就业前景。无论是在政府还是企业,统计 ...
2024-11-14在当今高速发展的技术环境下,企业正在面临前所未有的机遇和挑战。数字化转型已成为企业保持竞争力和应对市场变化的必由之路。要 ...
2024-11-13