热线电话:13121318867

登录
首页精彩阅读大数据时代的好地图
大数据时代的好地图
2016-03-22
收藏

大数据时代的好地图

大数据是2012年TMT圈最时髦概念的排头兵。今年3月腾讯推出QQ圈子,按共同好友的连锁反应摊开你的人际关系网,把你的前女友推荐给未婚妻,让人震惊之余,也会感慨这是腾讯多年数据积累的厚积薄发;手机游戏愤怒的小鸟年中曾透露其每天用户登录超过140万次,运营商Rovio每发布一个新的应用,都会立即改变流量,虽然这个量级跟国内的新浪微博和铁道部12306相比还差很远,但光从“体积”看这也算是个大数据了;今年11月奥巴马大选连任成功的胜利果实也被归功于大数据,因为他的竞选团队进行了大规模与深入的数据挖掘。时代杂志更是断言,依靠直觉与经验进行决策的优势急剧下降,在政治领域,大数据的时代已经到来;各色媒体、论坛、专家铺天盖地的宣传让人们对大数据时代的来临兴奋不已,无数公司和创业者都纷纷跳进了这个狂欢队伍。几乎每天都能看到有人在谈论大数据,大数据好像成了可以把任何东西都往里面装的框。尽管我们都知道大数据绝不会仅仅只是“大”而已,但真正能说清楚大数据是什么的人却不多。


在这大数据时代来临的前夜,这本书的作者,野心勃勃的舍恩伯格将这个问题说清楚了。他不断下定义举例子,试图给大数据划定疆域与边界,从思维、商业、管理三个维度分析大数据可能给人类带来的变革和挑战。他还指出大数据时代处理数据理念上的三大转变:“不要随机样本,而是全体数据”“不是精确性,而是混杂性”“不是因果关系,而是相关关系”。作者认为包括文字、方位、沟通等一切事物皆可量化,这些数据的价值在被发掘后仍能不断给予,并厘清了在挖掘过程中数据、技术和思维三类玩家的角色定位。同是大数据行家的译者周涛认为这本书好在三个地方:观点掷地有声、观念高屋建瓴、例子丰富详实。而这三者近乎完美地结合起来,作者驾驭大问题的能力和丰富的知识令人赞叹。

抽样分析是信息收集手段不完善时代的产物,它或许能更快更好地发现问题,但却不能回答事先没考虑过的问题。书中举了大数据与乔布斯癌症治疗的故事,乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人,他得到的不是样本,而是包括整个基因的数据文档。由于医生可以按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命。

大数据时代的另一理念是要效率而非绝对准确,要允许一点点的错误和不完美。谷歌2006年涉足机器翻译,谷歌翻译系统为了训练计算机,会吸收它所能找到的全部翻译。谷歌将语言视为能够判别可能性的数据,而非语言本身。假设你要将中文译作俄语,它可能会选择英语作为中介语言,因为在翻译的时候它能够适当增减词汇,灵活性提高了很多。

关于大数据最早最著名的例子可能来自美国第二大超市塔吉特百货。明尼苏达州一家塔吉特门店曾被客户投诉,一位中年男子指控塔吉特将婴儿产品优惠券寄给他的女儿——一个高中生。但没多久他却来电道歉,因为女儿经他逼问后坦承自己真的怀孕了。塔吉特百货就是靠着分析用户所有的购物数据,然后通过相关关系分析得出事情的真实状况。

随着大数据的出现,数据的价值也在发生改变。所有网民都会被网站要求过填写证明你是人而非机器的验证码,这项名为“CAPTCHA”的技术在2000年被发明时是为了防止垃圾邮件和不必要的骚扰,后来发明者又寻找到了使人的计算能力得到更有效利用的方法,发送两个单词,其中一个单词用来确认输入结果,另外一个机器无法识别的字符则随机发送给五个人,直到他们都输入正确才确认这个单词。这也是我们有时明明输错了最终也能登陆的原因。2009年谷歌收购了这家做验证码公司reCAPTCHA,并将其技术用于图书扫描项目,自此全世界的网民都沦为谷歌的免费打字员。。(谷歌太贱了!)因为众包的力量,这项技术每年能为谷歌省下十多亿美元。

作者最后提到,如果数据不能为我所用,那我们将会沦为数据的奴隶。要防止这种失控局面的出现,至少需要我们在管理层面做出四种变革:1、将个人隐私保护从个人许可到由数据使用者承担责任;2、个人该为其行为而非倾向负责;3、不能让大数据成为黑匣子,它需要雇佣外部监察人来维护公众信任;4、反数据垄断大亨。

如果一个人独自到了陌生城市,第一件事最好就是买张地图。一张好的地图可以让我们知道整体、方向、位置、重要特点以及我们的起点、终点、中间的路径,照着地图走才不易将自己迷失。如果你对大数据概念理解得还不是十分清晰,那么这本《大数据时代》就是你的好地图。

数据分析咨询请扫描二维码

最新资讯
更多
客服在线
立即咨询