浅谈:大数据几个争议点_数据分析师
“大数据”是近年来国内外业界与学界热议的一个话题。它不仅是对一种技术发展趋势的描述,也被视为蕴含着发展机遇的“下一个创新、竞争和生产力的前沿”。就像农业时代的土地、工业时代的能源,数据被看作是信息时代的核心资源。而“大数据”概念的产生,意味着人们对这一资源的认识正在不断深化,为我们理解和改造世界打开了一扇新的大门。
但总的来说,“大数据”仍然属于新生事物,人们对相关议题还存在很多不同的、乃至针锋相对的理解。围绕“大数据”的各种争议既展示了这个概念所涉议题的复杂性,也说明这一领域的实践与认识刚刚开始,未来有着无限的可能性。本文选取几个主要的争议点,以呈现一幅更加丰富的“大数据”图景。
“大数据”叫错了?
“大数据”从字面上理解是指规模很大的数据。如麦肯锡在2011年报告中的最早界定,“大数据是指其大小超出了典型数据库软件的采集、储存、管理和分析能力的数据集。……目前,大数据的一般范围是从几个TB到数个PB(数千TB)。”
所谓量变引起质变,基于大规模的数据,人们可以进行很多具有想象力和创造力的探索和实践,而这些探索和实践是在小规模数据的基础上是无法完成、甚至无法想象的。”例如,视频网站Netflix通过分析海量用户的观看行为数据,成功地推出剧集《纸牌屋》;又如,谷歌通过跟踪分析用户搜索关键词的海量数据,对美国流感疫情的估测值与美国疾病控制和预防中心的报告基本一致。
然而有一些论者认为,“大数据”的命名并不恰当。因为数据规模大并非“大数据”的核心特征,也没有体现新技术趋势的本质。一种观点认为,数据“在线”比数据“大”更体现新技术趋势的核心特征。如阿里巴巴集团CTO兼阿里云总裁王坚称,数据的“在线”远远比数据“大”更反映本质,更体现互联网的特点,而不在线的数据再大也没什么价值。而且,“在线”还使得数据搜集、整理、分析变得容易,并且能够反过来快速对社会产生影响。
还有一种观点认为,“长数据”(long data)比“大”数据更值得关注,“长数据”即从文明起源至今有关历史事实的数据集。哈佛大学应用数学家萨缪尔·阿布斯曼认为,“大”数据所呈现的只是信息与知识的切片,只有将数据置入长时段的历史中我们才能获取信息与知识的完整图景。而“长数据”不仅能够分析长时段的变迁,也能为当下的趋势变化提供背景。
大数据时代,数据抽样、因果关系不再重要?
《大数据时代》的作者维克托·迈尔-舍恩伯格认为,大数据时代在分析信息时发生了三大转变:第一个转变是可供分析的数据更多,甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样,因为采样分析是信息匮乏时代和信息流通受限制的模拟数据时代的产物;第二个转变是追求精确度已变得不可行和不需要,只有掌握大体发展方向即可;第三个转变因前两个转变而促成,我们无须紧盯事物之间的因果关系,而应该寻找相关关系。大数据告诉我们“是什么”而不是“为什么”,“在大数据时代,我们不必知道现象背后的原因,我们只要让数据自己发声。”
上述三大转变的阐述,有一些常用的案例支撑。如亚马逊网站根据用户在其网站上的类似查询数据来进行产品推荐;Twitter等社交网络通过用户的社交网络图来获知用户喜好。
这些说法招致很多质疑。大数据可能是存在系统性偏差的数据,如果不对数据总体、数据可靠性与数据来源进行审慎考虑,即使数据规模再大也无法提供关于某个现象的可靠结论。例如,通过分析Twitter的海量数据发现,人们远离家庭时更快乐,在周四的晚上最悲伤。但这个结论的可靠度很低。首先,来自皮尤研究中心的资料显示,只有16%的美国成年网民使用Twitter,这显然不是一个有代表性的样本,它突出了年轻人群体和大城市人口。其次,我们知道很多Twitter账户是由机器自动控制或辅助操作的。最新的估算认为,Twitter上可能有2000万虚假账户。因此,数据捕捉到的那些“人类感情”很可能是由机器表达的。
不仅如此,当数据规模增大之后,其出现错误的可能也随之增大。北大教授刘德寰以自已翔实的实验数据证明,巨量数据集和细颗粒度的测量会导致出现“错误发现”的风险增加。他说,“那种认为“假设、检验、验证的科学方法已经过时”的论调,正是大数据时代的混乱与迷茫。”
刘德寰教授还认为,大数据并不是新事物,天气、地震、量子物理、基因、医学等领域都产生巨量数据,而这些学科都在使用抽样调查的方法。互联网数据挖掘方法论也如此。既然是关于人的研究就需应用所有研究人的方法梳理大数据。
而大数据时代相关关系比因果关系更重要的论断引发了更多的争议。《大数据时代》的译者周涛认为这种观点是“机器学习和以结果为导向的研究思路”使然,而与大数据无关。还有批评者认为,使用大规模统计发现现象关联性的相关分析只是科学研究的初级阶段,但相关性结论并不能保证有效地指导实际生活。例如,夏天冷饮销量与蚊子数量在统计上是相关的,但这种相关性的价值不大。又如,统计表明吸烟与肺癌是相关的,那么能否得出为了身份健康就应该戒烟的结论呢?答案是不能。因为你无法从这种相关分析中分辨到底是“吸烟的人更容易得肺癌”,还是“肺癌患者大部分都爱吸烟”。
因此,只有继续深化对相关关系的认识,找到事物之间的因果关系及背后的作用机制,才能获得有用并且可靠的知识。换个角度说,虽然相关分析对于解决特定领域的问题已经足够,如阿里巴巴的购物推荐,但不同领域的问题并不相通,并不可一概而论。
大数据的社会伦理争议
大数据时代,各种新技术、新应用带来了种种生活便利与可能性,而这些技术和应用的前提是数据是开放的和可获取的。这些生活便利与新可能性的代价往往是个人隐私,也就是说,大数据时代网络获取的数据越多,其提供服务的能力便越强。这种特征蕴含着一系列的价值冲突与社会伦理争议。
首先,是对个人隐私权的担忧。尽管许多数据提供者尽力避免泄露个人隐私,但是这种风险仍然很大。比如手机使用数据,看起来似乎是匿名的,但是最近欧洲一项针对150万手机用户的研究表明,只需要四个参考点(four points of reference)就能识别95%的个人用户。而把医疗数据出售给分析公司存在同样的风险,这些数据对于提供针对性强的个性化治疗方案十分有帮助,但是个人医疗记录很可能被不当使用或泄露。
即使看起来不那么重要的个人数据(如年龄、性别),被泄露后也可能造成信息安全风险。有研究称,只要知道一个人的年龄、性别和邮编,便可识别出87%人的身份。因为大数据公司可以根据这些数据与公开的数据库交叉比对,并结合对个人行为特征的分析,如购买了哪些商品,所处位置,便可以生成一系列的“推测数据”(inferred data)而危及个人信息安全。
其次,大数据有可能加剧歧视现象。人们普遍认为大数据不存在“社会偏见”,因为分析是在一个广泛的层面进行的,能够回避基于群体的歧视现象。但事实上,大数据通常把个体归入某个群体,从而得出群体之间差异表现的结论。有业界人士指出,大数据被用作价格歧视工具的隐患已经引起了有关公民权的强烈担忧。大数据可以被用来区隔不同的社会群体,并对他们区别对待,特别是用于商业用途,而法律通常明确禁止商业活动这样做。
最近剑桥大学针对Facebook的一项大数据研究被用来估测一些非常敏感的用户个人信息,例如性取向、种族、宗教、政治倾向、性格、智力、幸福感、吸毒情况、父母婚姻状况、年龄和性别等。有业内人士认为,这些高度敏感的信息可能被雇主、房东、政府机构、教育机构和私营组织轻易获取,用于对某些个体的歧视和惩罚。
最后,大数据还可能造成数据垄断。“大数据”时代也带来信息存储和管理的集中化。这是因为能够拥有大数据的往往是拥有强大技术实力与广泛用户的大公司。只有大公司才有技术能力、资金实力自建平台,来存储、分析海量数据,进而在大数据中发掘价值。
例如,Facebook到2012年约有10亿用户,覆盖了大约10%的全球人口,这个巨大的社交网络内所有的关系和活动在数据化之后都为一家公司所掌控。这也意味着,这些大公司有可能为了维护自己的利益与垄断地位,而拒绝公开数据。大数据最终可能变成少数几个大公司的游戏。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
AI来了,数分人也可以很省力,今天给大家介绍7个AI+数据分析工具,建议收藏。 01酷表 EXCEL 网址:https://chatexcel.com/ 这是 ...
2024-12-26一个好的数据分析模型不仅能使分析具备条理性和逻辑性,而且还更具备结构化和体系化,并保证分析结果的有效性和准确性。好的数据 ...
2024-12-26当下,AI 的发展堪称狂飙猛进。从 ChatGPT 横空出世到各种大语言模型(LLM)接连上线,似乎每个人的朋友圈都在讨论 AI 会不会“ ...
2024-12-26数据分析师这个职业已经成为了职场中的“香饽饽”,无论是互联网公司还是传统行业,都离不开数据支持。想成为一名优秀的数据分析 ...
2024-12-26在数据驱动决策成为商业常态的今天,数据分析师这一职业正迎来前所未有的机遇与挑战。很多希望转行或初入职场的人士不禁询问:数 ...
2024-12-25数据分析师,这一近年来炙手可热的职业,吸引了大量求职者的注意。凭借在大数据时代中的关键作用,数据分析师不仅需要具备处理数 ...
2024-12-25在当今数字化变革的浪潮中,数据分析师这一职业正迎来前所未有的发展机遇。回想我自己初入数据分析行业时,那种既兴奋又略显谨慎 ...
2024-12-25在当今信息爆炸的时代,数据已经像空气一样无处不在,而数据分析则是解锁这些信息宝藏的钥匙。数据分析的过程就像是一次探险,从 ...
2024-12-25在职场上,拍脑袋做决策的时代早已过去。数据分析正在成为每个职场人的核心竞争力,不仅能帮你找到问题,还能提供解决方案,提升 ...
2024-12-24Excel是数据分析的重要工具,强大的内置功能使其成为许多分析师的首选。在日常工作中,启用Excel的数据分析工具库能够显著提升数 ...
2024-12-23在当今信息爆炸的时代,数据分析师如同一位现代社会的侦探,肩负着从海量数据中提炼出有价值信息的重任。在这个过程中,掌握一系 ...
2024-12-23在现代的职场中,制作吸引人的PPT已经成为展示信息的重要手段,而其中数据对比的有效呈现尤为关键。为了让数据在幻灯片上不仅准 ...
2024-12-23在信息泛滥的现代社会,数据分析师已成为企业决策过程中不可或缺的角色。他们的任务是从海量数据中提取有价值的洞察,帮助组织制 ...
2024-12-23在数据驱动时代,数据分析已成为各行各业的必需技能。无论是提升个人能力还是推动职业发展,选择一条适合自己的学习路线至关重要 ...
2024-12-23在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19