运营商数据量最大但不是大数据_数据分析师
2014年3月8日,在大数据领域非常有名的阿里巴巴数据分析灵魂人物车品觉接受了媒体的专访,就数据领域的问题谈了自己的认识,应该对很多正在进行大数据应用的专业人士有很大帮助。
大数据应用很重要的问题是:关于他的定位
大数据里面有一块非常重要的数据,而可能对未来的一两年特别重要,就是我们所讲的“关于他的定位”。我想知道一个人是谁?你是不是你?你在PC前面买了一件东西,不一定代表是你买的,有可能是你的老公或者是你的老婆在用你的PC去买,怎么知道到你就是你?这个在收集数据的时候相当重要。
另外,当我知道你就是你的时候?我下一个问题是你在PC或者手机上做了什么行为?以及你在哪里做了什么行为?这个对数据上的还原非常重要,否则的话很多东西是无法还原的。比如说你买这个东西是在公司里面,在移动还是不移动。我现在非常想知道一个人在用手机来买东西的时候,到底他在移动的还是在定在一个地方买东西的,这个数据对我非常重要。所以对一个点上的定位非常重要。
其实整个大数据来讲,用一个比较简单的说法是,当你去看完电影之后的五分钟,你饿了你想吃东西了,淘点点突然在这个时间给你一个信息说,旁边有个什么茶餐厅很好吃的,那个时候就是最对的时候,只要你送他一个优惠券可能就会去了。所以你到底怎么样去利用这个时间点的信息去推送更及时的东西,不一定是广告,很重要。但是这个首先要知道他准确的地理位置。
当我们讲大数据的时候,并不是一堆的数据,实际上是分为几块很重要的数据。第一个,你怎么去识别一个人,他就是他?另外一个,你怎么知道他在哪里他在做什么行为?第三个,这个行为是什么?再者,我们想知道他当时的关系是什么?这四种数据对未来很重要的。
过去PC的时代,对数据定位是比较少关注,今天会变得越来越重要。一个数据很有意思,在营销上的成功率。如果我们拿到准确的当的环境的话,我们会可以增加132%,如果我们很准确的知道人文数据,就是他是男的还是女的还是什么年纪等等,我们可以增长5倍。但是当我们知道他的行为数据的时候,我们就可以增加12倍。这三组数据是以行为数据最容易识别一个人的,但是他做什么之外还要知道他是谁,然后知道他的环境是什么样。
最重要的东西是三者的交叉。一个三十岁的男生,他在电影院刚出来的五分钟,他刚去看完电影的这个时候,你猜你应该推送一个什么样的东西给他,会让他满意呢?这个精准性对推送的整个营销会产生一种倍数增长的作用。
举个例子:早上的时候,我看见朋友穿了一件T恤觉得挺好看的,所以回到淘宝搜索一下T恤出来1万个结果,然后我老板在我旁边说开会,我站起来就去开会了,开会的时候我还是拿个手机过来看看,再搜这件T恤,结果旁边有个广告跟我说有个手表很便宜了,就买了一个手表。今天,我们大部分记录数据的方法,都只会记录有一个人买了一个手表一百元,但是,实际上整个东西的还原应该是刚才的样子。早上我的朋友穿了一件T恤我去淘宝搜索,我们不知道他为什么进来搜索,特别他为什么会停下来。但是,我们很多时候分析,会假定他停下来肯定是没找到东西,其实不一定的,可能旁边由于环境上的影响,就没有去再继续搜索了。后来时间许可之后,我拿个手机出来,问题是这个手机跟PC是没关系的,还以为另外一个人进来,因为我没有留下烙印,跳了一个东西出来说这个手表很便宜,已经把我刚才想找T恤的意图打破了,然后我就去买了一个手表。
整个链条中多少的东西无法还原,整个大数据我们说都很清楚了,其实我们也不是很清楚。所以,不要自己骗自己说,大数据什么都知道。很多的数据,事实上都还原不过来,真实的人告诉你的时候你会发现,是这样的。
昨天我台下问到样品数据跟大数据的关系,很多人在鄙视样品数据了,认为已经有大数据了,没必要发一个问卷出来问一下人家。但是我觉得,其实我们很多时候是用问卷的方法来找出一些方向,再用大数据来验证。有时候,大数据里面看到一些数据无法解释,会找一个问卷来去问问。因为什么?态度是没有办法用行为数据来知道的,就是一个人的态度只能在你一对一或者真的是问他的时候才能问出这个态度。所以,用样品数据可能会找到一些方向,在大数据里面寻找这个可能性的结果。
不要因为大数据出现之后,我们就对小数据或者对样品数据突然之间就据的很鄙视。没有必要鄙视的,其实都是一种工具。其实,大数据让我们用更多的角度来看一件事,并不是万能的。其实大数据并没有这么厉害,但是我们在努力,让大数据能再推到可以服务更多的社会大众。
心理状态数据很重要,但用起来很难
我们记录一个人是偏向于白天买东西还是晚上买东西,买东西的时间点到底习惯是怎么样?我们也把这个叫做他的心理状态,当时所买这个东西的心理状态,我们还没有到这个层次,但是有些大数据的美国专家已经到了这个层次,他的心理的状态对这个购买的影响,但是我们没有到。
一个数据没有人的属性的时候意义小
以前为什么要记录线下的交易数据呢?因为他想比较,比如说我是联华,同一个地区我卖的是不是卖少了,他买了一个饼干,这种类别的饼干卖得好不好?你是这种类别的饼干卖得好不好?他们会对一下,这是纯粹交易的情况会对一下,但是很难关联上这个人。
我们走访一些线下的企业,有些企业居然把自己三年前会员数据丢失掉了,我说三年前的数据能不能拿出来看看,他说没有了,因为没有用。识别一个社会学的数据极其重要,否则下面很多数据根本关联不到这个身上。
在大数据里面,近一年开始有很多人提出来,数据是有生命周期的。如果三年前的数据肯定不如6个月之前的数据重要,如果我想知道你购买的行为的话,因为有可能三年你的购买行为都变了,可能近6个月比较能知道你的行为,三年前的你的购买数据可能是没有这么有效。
所以一个企业可能要做一个决策,可能八年前数据是不是不要啊?是不是这样一直有价值吗?所以有一个词是非常重要的,数据随着时间的推移慢慢价值减低。
我以前曾经表达一个观点是,数据出来的结果很好,就是能帮我们提升多少的百分比,但是有时候你会发现他不稳定也没有用的。今天能给你这个效果,明天就不能给你,你的供应货来源的原料不稳定。所以数据来源也是一样的,今天来的数据挺稳定的,明天来的数据不稳定的,这样的数据还是不能用的,在我们放在非常重要的数据是不能用的,比如说你决定借钱给一个人,可能明天数据不稳定,产生出来的伤害更大。
端到云、云到端整个数据是流动的
从我个人的理解来讲,云有两个很大的功能,一个是他的计算能力,一个是他的储存能力。端是终端,手机、PC,将来如果是穿戴,所有都是端。从云到端这个地方来讲呢,能不能利用云的计算能力与他的储存能力,快速来计算东西给到端去用,我认为他是非常考验这个云上的计算能力跟储存能力的。
如果我们做了一个数据模型,数据模型是说,我能猜到一个人在他现在这个行为里面,有人用了他的手机,但是用这个手机的人并不是他的。在这种情况下,能不能停止他的手机使用?
就是,实时能从计算上知道,现在用手机的你并不是你,并不是平常的你。这个能力如果在端上使用的话,云那边肯定要非常快速的计算,所以他的计算能力非常重要。
因为端那边已经收集了一些数据,他现在可能人在美国,但是三分钟之前用这个终端的时候其实还在中国,为什么?一个人怎么样可以在这边一个小时之后飞到美国呢?如果这个是支付系统知道了这个事情的话,云就通知端要停止到这个手机。
但是端到云的时候,他是收集及时的数据给到云那边,让云那边能够存储关于判断刚才这件事情的能力。所以端到云、云到端整个数据是流动的。端的能力在于收集,云的能力在于计算存储,这两者之间是出现数据的流动的。仅仅从数据的角度去看,都是用我刚才的那个方法来讲。端来讲是知道当时当下发生了什么事情,把他传到云上,云把他存储而且计算,计算当时那个地方到底有什么东西不动的,然后再传到端上整个东西进行一种循环。
运营商的数据量巨大但做得不好
对于大数据,我觉得垄断是很难的。中国来讲,数据量最大的并不是阿里,有一些公司数据的量也很大的,比如运营商。所以只是说,有两种东西要看的,一个是计算数据的能力,管理数据的能力,这个其实数据量大到某个量之后,后面的两者更重要。就是让你盘点一下你今天的数据的时候你就发现难了。管理一种数据的能力,计算一种数据的能力,收集数据的能力,这三者是要平均的,不是仅仅说用多少大的数据的,管理数据变得越来越重要。
大数据安全不是靠监管
大数据数据量很大,很难仅仅只是用一个监管的方法来决定这个数据是不是敏感,而是应该用一个更好的方法去处理。
讲一个例子,数据安全中最安全的方法就是不给你看,给你看过理论上安全就会有出现风险的可能性了。我们现在的技术能够做到的是不给你看,但是可以给你用。
其中的一些安全策略是这样的,比如说我现在说要调动一些人的名字,这个名字里面有“车品”就两个字,但是我不会给你看所有的人的名字里面有“车品”两个字,但是告诉你答案就是3个。也就是说,我不会给你看到数据,我只给你用这个结果。
关于因果和相关的关系
数据挖掘有两种方式:一种是我们知道了有因果关系,我们用数据来界别这个因果关系以后形成了一个模型,利用这个模型让我们去做一个决策更快,比如说有一个人网上来了一个用户看了这样的商品之后,这个商品以前曾经他看过的,所以今天客户过来是要买这个东西,但是还没有办法下决心,你要不要给他一个红包去刺激他去买,这个是有因果关系的,这样的因果关系很容易在一个模型里面。
另外一个是,有一堆的数据,但是不知道有没有因果关系,但是用数据去处理的时候,发现面有一些现象很有关联性,虽然不能解释但是我可以用。
所以,在做应用数据的时候,有时候我们可以不管因果关系,找出他上一个行为是什么就可以了,不一定找出下一个行为,我们不一定要推送最好的给他的,有时候是给他下一个需要的就可以了。我们不会去求绝对的因果,有些因果不是说要追求于绝对的。
【给数据分析人士提供几个重要数据备案】
1、在阿里数据平台事业部的服务器上,攒下了超过100PB已处理过的数据。这是什么概念?它相当于4万个西雅图中央图书馆,580亿本藏书。
2、在2013年11月11日,阿里巴巴服务器承载的是350亿的交易额,是同时服务超过1700万人,是每分钟产生10万个包裹,是提供相当于1000个义乌商品市场那么大的商品数给你挑选,是需要同时展现3000万部爱情动作片,是支持每分钟100万人同时买单,是相当于同时由9000万个服务员帮你拿货。
3、阿里金融综合了信用记录、成交数额等结构化数据,以及用户评论等非结构化数据,加上外部搜集的用电量、银行信贷等数据,可就放贷与否、放贷额度精准决策。直接弥补了银行业在贷款风险上的盲点,几分钟之内就让贷款发出,其贷款不良率仅为0.78%。截至2014年2月底,阿里小微信贷已经累计为超过70万家小微企业解决融资需求,累计投放贷款超过1700亿元。
4、聚石塔提供了数据存储、数据计算等服务,在保障交易安全,避免遭黑客攻击的同时,还提升了商家处理订单的速度,确保交易顺畅。2013年的天猫双十一,聚石塔处理了全网75%商家的订单,处理总订单量是12年双11的10倍,0漏单,覆盖活跃商家94万,其中有两家订单量过100万。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Excel是数据分析的重要工具,强大的内置功能使其成为许多分析师的首选。在日常工作中,启用Excel的数据分析工具库能够显著提升数 ...
2024-12-23在当今信息爆炸的时代,数据分析师如同一位现代社会的侦探,肩负着从海量数据中提炼出有价值信息的重任。在这个过程中,掌握一系 ...
2024-12-23在现代的职场中,制作吸引人的PPT已经成为展示信息的重要手段,而其中数据对比的有效呈现尤为关键。为了让数据在幻灯片上不仅准 ...
2024-12-23在信息泛滥的现代社会,数据分析师已成为企业决策过程中不可或缺的角色。他们的任务是从海量数据中提取有价值的洞察,帮助组织制 ...
2024-12-23在数据驱动时代,数据分析已成为各行各业的必需技能。无论是提升个人能力还是推动职业发展,选择一条适合自己的学习路线至关重要 ...
2024-12-23在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17