有关大数据的误区:数据统计≠大数据_数据分析师
大数据太火了,被广泛应用到各行各业,而近阶段又有着明显的过热迹象。大数据到底是一个营销词汇,还是一个方法论?本文作者老李正是一家大数据服务提供商的资深员工,他所做的项目就是针对不同行业进行大数据分析。他认为,关于大数据你首先必须有一个基本认识,那就是“大量的数据并非一定具有价值”。另外,数据统计并不等同于大数据,数据统计和大数据的区别就在于人工智能。长文慎入:
近两年来,“大数据”被广泛应用到各行各业,而近阶段又有着明显的过热迹象。从央视的春运迁徙图到姚晨看到微博数据的惊呼;从两会期间的两会大数据,到《星星》都叫兽的高低领毛衣,“大数据”被人们推到了一个前所未有的高度,同时也从一个高精尖的科研方向变成了一个世人皆知的营销词汇。
我既没有资格代表学术界,更没有资格来判定谁是谁非。我只能就自己的工作经历,来谈一下我眼中的大数据:
百度百科对大数据的定义是这样的:大数据(big data)或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
个人认为Gartner的定义更为贴切。“新处理模式”是一个很关键的词汇,这也是我所理解的“大数据”区别于传统统计分析等最关键的特征之一。这个所谓的“新处理模式”有两层含义:
1、由于海量的数据,需要更高效的存储和处理技术,Hadoop成为了大数据时代的标志;
2、如果你认为大数据就等于Hadoop,那就大错特错了。Hadoop只是大数据时代的一个必要条件,大数据还有一个明显的标志是数据挖掘和人工智能的紧密结合。这也是我理解的“大数据”与现在很多所谓“大数据”项目最明显的区别之一。我会在后面的案例中给大家展开。
除了上面的“新处理模式”上的区别,个人认为还有一个最主要的区别是:数据统计分析是基于已有数据的纵向归类,而大数据是基于对已有海量数据的处理,对还未产生的数据作出预测和推荐。数据统计是已经发生的事情,而大数据往往被用于还没有发生的事情预测或者推荐中。
目前主要的推荐算法大致可以分为两类。一个是基于行为,一个是基于内容。当然,针对不同的领域,不同的预测和推荐的对象,又会有十余种算法。这就不是本文展开的内容了。
基于行为的分析,顾名思义,即对用户在互联网、移动互联网留下的“痕迹”,即浏览、点击、收藏、购买、二次购买的分析,得出未来会选择购买的预测和推荐结果。基于行为的分析,属于群体智慧,综合利用群体用户的行为偏好。用户之间会相互影响,更加符合现实世界中的用户行为。
基于内容的分析, 包括对文字、图片、音频、视频等信息的分析,得出预测和推荐的结论。内容的“基因”和用户的偏好相匹配,最有代表的是潘多拉的音乐推荐项目,其将曲库中所有歌曲都由400多位专家打上标签,然后建立个人与音乐的联系,从而完成音乐的推荐。内容的分析只针对个人,与用户之间关系无关。
现在谈这个问题可能会让大家笑话,似乎所有人都知道大数据能干这个,能干那个,最后连我们自己都觉得可笑。大数据已经都不是被“妖魔化”了,是“娱乐化”。大数据似乎是个离我们忽远又忽近的事物了,变得不真实起来。
好吧,我还是结合从业经历来说说大数据“解决过什么问题”吧:简单地来说,大数据可以帮我们解决决策和选择的问题。
天气预报就是一个最古老而且众所周知的预测。你可以根据预报来决定明天穿什么衣服,是否要带雨伞,等等;
近两年来,大数据被应用到影视制片行业,基于对观众偏好的分析,去预测、设计观众喜欢的剧情,找观众喜爱的演员出演相关的角色,甚至可以去预测票房。这些所有的预测都是基于数据的基础上,经过一定的模型处理,得到接近真实的结论。从某种程度上给决策者决策的依据,比如《纸牌屋》和《星星》。
大数据还有一个重要的作用,就是解决人们的“选择”问题。别笑,无论你的年龄、性别、教育背景,人们目前都面临着前所未有的选择问题。讲的学术一些,这是由于“长尾效应”导致的问题;讲得通俗一些,就是由于日益增多的可选择的对象和我们自身的处理能力之间的矛盾。
科技的进步让人变得更懒,也就是我们自身的处理能力降低,无论是主观的还是客观的。而可被选择的对象却在日益增多。从纷繁复杂的商品(电商),到海量曲库中的乐曲;从婚恋网站的男女朋友,到交通管理的信号灯。
基于人工智能下的大数据,就是可以使人们“变懒”的一个手段。基于你的历史行为,判断出你可能的喜好,乃至需求,将最佳结果,推荐给你。这就是大数据,她是你的贴心管家,或者说是最懂你的朋友。
一个最经典的案例是沃尔玛曾经做过的“啤酒”和“尿布”调研:沃尔玛在研究中发现,一类顾客经常在购买尿布的同时也购买啤酒。尿布跟啤酒自然是毫无关联的两个品类的商品,从个人经验上来看,根本想不到二者的联系。后来发现,这是一类社会现象所导致的。美国有很多年轻夫妇,尿布用完后,女主人在家带孩子,而男主人就去超市买尿布。买完尿布之后,男主人通常会顺带着买些啤酒。
上述例子说明,数据经常可以让你发现看似不合理不合逻辑但却存在,并且经常发生的现象。
再举个例子,北京的交通拥堵是地球人都知道的事情。尤其是早晚高峰,这已经不需要预测了。但如果根据历史交通数据,再经过数学模型,计算出一个全北京最佳的交通信号灯管理系统,这就属于大数据的范畴了。
这也是我眼中大数据主要与普通的数据统计分析最大的不同:数据统计可以帮助你发现疾病,但大数据可以不但帮助你发现,且帮助你治疗疾病。
大数据绝不是“噱头“,我们在帮助某运营商阅读基地的阅读推荐项目中,各项指标均得到大幅提升。而这个提升不是百分之几十,而是数倍的提升!(用户人均流量提升了4倍,沉默用户激活能力提升了6.5倍)这才是大数据的魅力。
大数据显然不是万能的。正因为如此,她才真实。大数据在有些领域由于种种原因,所带来的价值并不如预期的那么高。导致这种现象最主要的问题有两个,一个是由于数据本身的质量或者数量不够;另一个是算法不合适。
不要以为是海量数据就一定会有价值,在过往的工作中,我们经常发现来自甲方的数据源有80-90%的数据都是无用的。只有10%-20%的数据才会产生一定的价值。这就又让我想到Marry Meeker打的那个比喻,“大数据的工作就像在一堆稻草中寻找一根针”。
何况,大多数领域本身业务属于早期,所拥有的数据非常贫乏。冷启动、稀疏性是大数据在诸多领域面临的挑战。
另一方面,对于不同领域,不同项目,没有放之四海而皆准的算法,必须要根据具体问题具体分析解决。在实际的工作中发现,不只是不同的领域(如文章推荐与商品推荐),甚至同一领域的不同单元(同属电商但不同类电商,如母婴类和服装类或者奢侈品类)也有所不同。
上面提到的两个大数据在实际应用中面临的最大问题,即冷启动时数据的匮乏和业务早期数据的稀疏性问题,并不是无药可救。业界一直讨论的数据打通,就是解决这两问题的出路。
对于一些新兴领域,缺乏数据是必然的,而另一方面,正由于缺乏数据的支持,所以才更需要有强大决策支持的系统对其业务做指导和支撑,以实现少走弯路,利益最大化的目的。
移动互联网领域的项目,尤为代表。虽然在过去的两三年里,移动互联网得到了高速的发展,但毕竟在各个方面的积累,都无法与互联网相比。尤其在人们形成稳定的使用习惯之前,数据还不具备更多的价值和意义。
但如果能把互联网的数据与移动互联网数据打通,那么我们就掌握了这个人的喜好等多方面信息,从而为移动互联网业务做出更有效的指导和帮助。
当然,数据的打通绝不仅限于互联网和移动互联网。每个数据源的数据往往刻画了一个人的不同方面。正如巴拉巴西教授在《爆发》一书中描绘的那样,如果数据充分,人类93%的行为是可以预知的,是有规律的。
也只有将这些不同来源的数据重新组织,才能挖掘出更有意义的信息。
如今,行业内不少人打着“数据统计和分析”的旗号来做大数据,让很多外行人陷入了误区:数据统计并非等于大数据。无论数据统计也好,大数据也罢,其实都是为了使我们的工作变得更为有效,让决策更为理性而准确。重视数据,本身就是一个企业成熟的标志。
移动互联网的迅速崛起,让数据变得更为多样、丰富。它的移动性,它的碎片化,它的私密性和随时性都刚好弥补了用户离开桌面电脑之后的数据,从而与原有的互联网数据一起很好滴勾勒出一个网民一天的生活,日常生活的数据化。
随着数据的进一步丰富和完善,随着不同渠道数据的打通和交叉利用,有关大数据的想象一定会更加广阔。
数据分析咨询请扫描二维码
Excel是数据分析的重要工具,强大的内置功能使其成为许多分析师的首选。在日常工作中,启用Excel的数据分析工具库能够显著提升数 ...
2024-12-23在当今信息爆炸的时代,数据分析师如同一位现代社会的侦探,肩负着从海量数据中提炼出有价值信息的重任。在这个过程中,掌握一系 ...
2024-12-23在现代的职场中,制作吸引人的PPT已经成为展示信息的重要手段,而其中数据对比的有效呈现尤为关键。为了让数据在幻灯片上不仅准 ...
2024-12-23在信息泛滥的现代社会,数据分析师已成为企业决策过程中不可或缺的角色。他们的任务是从海量数据中提取有价值的洞察,帮助组织制 ...
2024-12-23在数据驱动时代,数据分析已成为各行各业的必需技能。无论是提升个人能力还是推动职业发展,选择一条适合自己的学习路线至关重要 ...
2024-12-23在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17