大数据,假规律聚集地
在大数据逐渐成为时尚代名词的时代,越来越多的专家学者开始试图揭开大数据的时尚外衣,寻找大数据这堆稻草中一根有意义的针。
2012年下半年,几本有关大数据的畅销书陆续出版,从国内信息管理专家涂子沛的《大数据:正在到来的数据革命》,到艾伯特 . 拉斯洛 . 巴拉巴西颠覆《黑天鹅》的惊世之作《爆发:大数据时代预见未来的新思维》,再到维克托 . 迈尔 . 舍恩伯格的“国外大数据系统研究先河之作”《大数据时代》, 最终引爆了大数据。
然而,进入2013年之后,各路大数据研究者却逐渐从兴奋转入反思,以北京大学传播学教授刘德寰、阿里云总裁王坚等人的声音为代表。一句“云计算和大数据,你们都理解错了”,王坚成功地引起了大家的关注,他从“大数据”这个概念是否准确入手,剖析互联网领域的大数据与其他领域的大数据的区别,指出如今的数据最突出的特点“不是大”,而是“数据变得在线了”。
无独有偶,早在2012年6月13日的新浪微访谈上,北大教授刘德寰也阐述了自己对大数据的看法:“大数据一词我不十分同意,没有一定之规.....‘. 大’是一个相对值。”近日,《CIO Insight/信息方略》记者就由兴奋转入反思的大数据问题采访了刘德寰教授,以下是经过编辑整理的对话。
大数据,时尚代名词
CIOI:如今,很多事情都想与大数据沾边,不管是各种国内外IT会议论坛,还是热点话题。对于目前无处不在的大数据,你怎么看?
刘德寰:首先,大数据不是新事物,天文学、地质学、量子物理、基因学等领域早已有这个概念。现在的大数据热潮主要指的是互联网领域的大数据,与上述领域的大数据不同的是,因为人的复杂性,这个领域的大数据挖掘会更加困难。既然是关于人的研究就需要应用研究人的方法梳理大数据。
“大数据”一词我不十分同意,没有一定之规。主要是相对于原来统计软件的局限而形成的一个词汇。由于现在互联网痕迹的增加,数据已经对原来的统计软件形成了挑战,所以“大”是一个相对值。
如你所说,如今大数据已经无处不在,它已然成为一个时尚词汇,而且很多人对于大数据存在理解混乱。
CIOI:你所指的理解混乱包括哪些方面?
刘德寰:现在谈到大数据,基本有四个混乱观念:第一,大数据是全数据,忽视甚至蔑视抽样;第二,连续数据就是大数据;第三,数据量级大是大数据;第四,数据量大好于量小。与之相对应的是:抽样数据只要抽样合理,结论就是准确的;连续只是一个数据结构;大量级的噪音会得出错误结论;大小与价值关系不大。
CIOI:也就是说,对于维克托.迈尔.舍恩伯格在《大数据时代》一书中提出的三组重要对比(注:因果关系VS相关关系,随机样本VS所有数据,精确性VS混杂性)你否定了其中两组,那对于“不是因果关系,而是相关关系”这个观点,你有什么要说?
刘德寰:舍恩伯格在《大数据时代》一书中提出的被广泛接纳的:大数据“没有精确只有混杂,没有因果只有相关”观点是错误的,混杂的数据需要经过梳理成合理的数据才有分析价值,无论是牛顿、爱因斯坦,还是韦伯的理想类型都是在混杂中找寻分析方法,相关关系很多时候是在没有找到因果之前的认识,因果与过程理解是研究的核心。
稻草与针的故事
CIOI:大量级数据的噪音问题会对数据分析与挖掘的结论有何影响?
刘德寰:斯坦福大学教授Trevor Hastie曾说过这样一句话,数据挖掘是什么,就是在大规模的数据干草堆中寻找一根有意义的针,其麻烦在于“许多稻草看起来也像针”。
这是现在在数据挖掘的问题上面临的最大风险,海量数据带来的风险是处处都是假规律。数据太大,会带来规律的丧失和严重的失真,每个结论都是显著的,没有什么是不显著的,这样就太可怕了。
CIOI:这种风险的大小是由什么决定的?
刘德寰:数据量的大幅增加会造成结果的不准确,来源不同的信息混杂会加大数据的混乱程度。研究发现:巨量数据集和细颗粒度的测量会导致出现“错误发现”的风险增加。那种认为“假设、检验、验证的科学方法已经过时”的论调,正是大数据时代的混乱与迷茫,人们索性拥抱凯文凯利所称的混乱。
CIOI:那怎样才能规避这种风险?
刘德寰:抽样。没有抽样的弥合,直接面对大数据,得出的结论基本上都是没有用的。所以大数据到来的时候,千万别像一个饿了好几天的人见到一个东西的吃法,会撑死的。
数据分析与挖掘VS数据整理
CIOI:谈到数据分析与挖掘,很多人都会提到啤酒与尿布的经典案例,尽管这个案例可以说已经非常陈旧了,你怎么看待这一点?
刘德寰:一个尿布与啤酒,还有一个现代汽车,是数据分析领域的两个非常经典案例。但是这两个案例都发生在20年前,数据挖掘已经谈了五十年,但却再没有第三个、第四个经典案例出现。这是因为现有的数据挖掘技术不能给商业决策者带来真正的洞察。其实,这更应该叫做数据整理。数据整理是什么?就如瞎子摸象,数据整理并没有摸清楚事物背后真正的规律,只是基于局部数据、某种行为监测整理出来的一个模型,这个模型甚至不能回答这个人想干什么,喜欢什么,这个人是怎样的人这些问题。
所以,要做数据分析与挖掘,首先就要把规律弄明白,把分析方法弄明白。
CIOI:大数据时代的数据挖掘应该怎么做,才能得出隐藏在无数假规律后面的真实结论?
刘德寰:上面已经提到,现在所说的大数据主要指的是互联网领域的大数据。互联网用户的基本特征、消费行为、上网行为、渠道偏好、行为喜好、生活轨迹与位置等,都反映用户的基本行为规律。体系完整是所有分析性工作的第一步,完整的框架甚至胜过高深的模型。
历程——族群——规律——验证,这是我认为比较好的数据分析与挖掘的框架。先要走历程,看整个事态发展的历程,找寻这个历程当中各个族群的规律,然后把这种规律,用抽样的方式找完之后,放置到大数据当中去不断地重新弥合。亚马逊从开始到现在一直是这样的思路,这也是亚马逊的广告推荐能够做到精准的原因,原因就在于其不是就大数据谈大数据,而是就人来谈大数据。
这也是数据挖掘的基本逻辑。数据挖掘的商业本质、结论,一定要极其简单,但是挖掘的过程一定要复杂复杂再复杂。如果反过来,数据挖掘过程很简单,一抓取,一排列,得出的结论五花八门,这是大数据时代面临的巨大风险。
CIOI:要做好数据挖掘,还需要关注哪些呢?
刘德寰:举个例子说明。有一个女性,突然一改以往的习惯,开始购买无香型乳液,同时购买某种维他命,微量元素中的锌和镁。这三种行为改变结合在一起说明,这个女性怀孕了。在这个过程中,我们有最基本的人的行为跟踪以及最基本的社会公共卫生知识的了解,这时候商家开始对其进行分析和营销,计算她的预产期,然后推荐各种婴儿产品广告。但是,商家一定要明白,如果这个人知道商家知道她怀孕了,她可能会非常的焦虑,因为她很可能不想被人发现她怀孕了。这时候,如果商家将婴儿床的广告放在稻草机的广告边上,然后一起给她,她的焦虑就会大幅降低。
这样才能真正做好数据挖掘。首先,生活变,行为才会变,要将关注点放在变化上。另外,非常重要的一点是,要关注人性,了解人性,要充分表现出对人的关怀。
CIOI:这也就是你一直说纯IT人员无法做好数据挖掘的原因吧?
刘德寰:对,要做好数据挖掘,必须要有市场研究人员、IT人员以及营销人员通力合作。数据建模首先要理解消费者,然后才能建立符合中国人的数据模型,要做到这些IT人员需要市场研究人员及营销人员的帮助。
CIOI:对于CIO们真正认识大数据,你有什么建议?
刘德寰:现实互联网领域被几本关于大数据的书籍所累,观念十分混乱,实际上,人类积累的数据经验是一切分析的基础,包括所谓的海量数据,这几本书的方法论横空出世,同时又没有落地,没有实际操作经验积累,误导性太强。要在认识的过程中,多向自己和他人提出问题,在思想碰撞与交流中促进思索,实现更深层次的认知。
数据分析咨询请扫描二维码
数据收集与整理 - 从各种来源收集数据,清洗和整理以确保数据质量和可用性。 数据分析与建模 - 运用统计学方法和机器学习模型对 ...
2024-11-26技术技能 - 编程能力: 数据分析师需要掌握至少一门编程语言,如Python、R或SQL。这些语言对于数据处理、建模和分析至关重要。例 ...
2024-11-26数据分析领域涵盖多样性岗位,根据工作职责和技能需求划分。这些角色在企业中扮演关键角色,帮助组织制定战略、优化流程并实现商 ...
2024-11-26数据分析是一种通过收集、处理、解释和展示数据,以获得见解和决策支持的过程。这个领域涉及使用统计学、计算机科学和商业智能等 ...
2024-11-26数据分析领域正日益成为当今商业世界中不可或缺的一环。随着数据量的爆炸式增长,企业越来越需要能够从这些海量信息中提炼出宝贵 ...
2024-11-26数据分析师需要学习的课程内容非常广泛,涵盖了从基础理论到实际应用的多个方面。在追求这一职业道路上,合适的教育和培训至关重 ...
2024-11-26数据分析师作为当今信息时代中关键的职业之一,扮演着解释、预测和推动决策的重要角色。他们需要多方位技能来处理各种复杂的数据 ...
2024-11-26数据分析师在今天的商业环境中扮演着至关重要的角色。他们需要应对各种复杂的数据分析任务和业务需求,这要求他们具备广泛的技能 ...
2024-11-26在当今快速变化的技术和市场环境中,数字化转型是企业利用数字技术全面重新设计和改造业务的重要过程。这一转型旨在通过整合云计 ...
2024-11-26数字化转型: 是企业在现代技术和市场环境不断变化的背景下,利用数字技术对其业务进行全面的重新设计和改造的过程。其核心目标是 ...
2024-11-26理论基础与高级学习 数学专业理论基础: 学生首先需要掌握数学的基础理论,包括数学分析、高等代数、几何学、常微分方程、实变函 ...
2024-11-26数字化转型:现代企业蜕变的引擎 数字化转型已然成为当今企业持续发展的关键支柱。这一过程并非简单的技术升级,更是涉及企业文 ...
2024-11-26# 数据科学与大数据技术专业学什么?就业前景与行业需求 **数字化转型:引领企业进步的关键** 数字化转型是现代企业发展的必经 ...
2024-11-26理论部分 - 基础数学理论: - 学生首先需要掌握数学的基础理论,包括数学分析、高等代数、几何学、常微分方程等。 - 这些课程 ...
2024-11-26在选择数据科学和大数据技术专业时,了解不同领域的职责和技能需求至关重要。数据治理工程师是这一领域中不可或缺的角色之一,承 ...
2024-11-26基础课程 统计学基础 - 统计学是数据分析的基石,包括概率、假设检验、回归分析等基本知识,有助于理解数据背后的意义。 - ...
2024-11-26数据分析是一门综合性学科,涉及多个领域的知识和技能。要全面掌握数据分析,需要学习以下内容: 基础课程 统计学基础:统计学 ...
2024-11-26数据治理工程师在当今信息时代扮演着至关重要的角色,负责确保组织内数据的质量、安全性和可用性。他们需要具备一系列技能和才能 ...
2024-11-26在当今数字化时代,数据被誉为新的石油,是企业最有价值的资产之一。因此,建立有效的数据战略规划对于企业的成功至关重要。数据 ...
2024-11-26<section id=
2024-11-26