从预测到“现测”:大数据商业建模的新发展
大数据商业建模的新发展方向在哪里?怎么样预测才能真正发挥大数据的特有优势?从预测到“现测”是如何实现的?百分点首席模型科学家陈宇新教授为我们做了更深一层的阐述,从预测到“现测”:大数据商业建模的新发展。
以下是陈宇新教授在2015百分点大数据操作系统(BD-OS)暨D轮融资发布会上的演讲摘录:
谢谢大家,谢谢各位来宾!非常荣幸在今天这个场合给大家分享关于大数据商业建模新发展的一些思考,这也是现在百分点研发的一个前沿。
大家都知道预测是大数据商业应用的一个核心,大数据预测需要大量的高质量数据加上非常先进的模型,在当前的情况下什么是预测领域新的热点或者一个新的发展方向?怎么样预测才能真正发挥大数据特有的优势?这是我想分享的,在这之前给大家先介绍两条最近媒体报道的新闻,从新闻上大家或许能够看出一些新的发展趋势。这两条新闻都是8月份华尔街日报刊登的。
第一条,苹果和谷歌正在开发在用户想要之前就知道用户想要什么的技术,在你不知道想要什么之前就告诉你想要什么,这两款产品大家也听说过,对苹果来说叫“主动助手”,对谷歌来说这个产品叫“谷歌现代”。这两家公司通过对你未来肯定要做的事情的一个探知反过来推测你最近的将来想干什么。谷歌通过邮件可以知道你今天下午六点有班飞机,下午三点的时候根据你现在的位置,根据北京的交通流量告诉你现在该走了,如果走的话该打什么车,滴滴或者Uber,这是它预测的思路,通过对一些已知的未来的事件的掌握来推测即将发生的未来应该干什么的一个预测。
跟这个看起来没有特别关系,但是有共通之处的另一条新闻,宏观经济指标预测,这家公司名字叫“现测”,创始人是哥伦比亚大学诺贝尔经济学奖得主的博士生,大数据预测宏观经济指标,比如物价指数。为什么叫“现测”?不是预测,而是很快的把刚刚发生的整个美国各种物价变化归纳出来呈现给用户,描述刚刚发生的事件,而不是真正预测未来的物价怎么样。为什么这件事有意义?因为通常政府颁布的指标是一个月或者一个季度以前的,它能做到一分钟之前。
这两条新闻有一个共同的关键词就是“现”,NOW,这是目前对于大数据应用的一个非常重要的趋势,那就是从预测到现测,预测是大数据建模技术的一个核心,但同时也是大数据建模的一个最大的难点,大家都说大数据很厉害,能预测很多东西,你能不能告诉我明天中国的股票是涨100点还是跌50点,没有人可以做到。但是大数据的优势在于很多时候我们真正需要的并不是预测,而是所谓的现测,是对极近过去的描述和极近将来的预测。
什么叫极近?一天以前或者一小时以前?这实际上是取决于我们现在数据量的多少和技术的发展,趋势是这个极越来越短,本来一个月前的经济数据,现在可以知道一分钟之前的,高频交易之前的我们需要知道一秒钟之前的数据。这是我们想到的现测的定义,现是一个动态过程,现测是指我们目前状况之前一点时间和之后一点时间情况的描述或者预测,这实际上是大量的大数据应用所真正用到的预测模型,比如高频交易,实际上已经知道市场的情况,但是在别人反应之前我们就知道了极近的过去发生的。
推荐引擎,这是大数据应用非常重要的,也是百分点最原始的DNA,根据消费者在这个页面上当前的状态,马上给他一个现时的推荐,这个推荐可能只是在一秒甚至半秒之内,实时投放的RTB广告,还有打车软件,大家用过滴滴专车,他们背后的原理是现测的原理,我知道车在什么地方,你在什么地方,交通状况,我就可以推测下一分钟车开到哪儿,知道前一秒车在什么地方。现测刚刚发生的事情,即将发生的事情,背后有一个非常重要的科学原理。自然也好,给了我们一个非常重要的预测手段,万世万物都有一个所谓的惯性,这个惯性效率发生的时候就使得我们预测能够比较准确。一个物体从斜面上往下滑,下一秒这个木块在什么地方可以预测的非常准确,现测为什么有它的准确性,来源于万世万物背后的惯性。
放在社会领域,惯性是由场景驱动的,比如明天我的太太过生日,生日要买生日礼物,有了这个目标,根据惯性原理,预测就变成一个现测。
现测的优势一个是利用所谓的惯性原理,另外利用了时间差,这是大数据的特点,因为大数据往往是实时的数据,海量高频的数据,这张图大家可以看到如果我每十分钟照一个这样的照片,可能就错过这个镜头,如果每一个微秒或者每半秒拍一个照片可能就看到这个镜头,看到这个镜头就有一个惯性的应用,这个女士拿起这个橘子,如果没有时间差,比如5分钟拍一次照这个镜头就错过了,但是如果频率高的话,我们知道她拿这个橘子看一下,虽然孩子拉走了,但她对这个橘子有兴趣,这个情况下我们可以有一些营销手段。
说起来跟预测一样,实际上这是一个描述问题,高频的描述效果跟预测是非常像的,我们并不在预测她到底喜欢苹果还是橘子,只不过我们描述从预测变成了实测,描述非常有优势,这样我们把一个非常艰难的预测问题变成一个描述问题。这是我讲的为什么对大数据来说我们具有现测的优势。
我有一些博士生在做模型的建立和模型的测试,根据现测的概念,我们可以发展出一系列的技术模型,这些模型有一系列商业的应用。一个是协同过滤和时间序列的分析,通常在计算机科学领域,大家都知道协同过滤的算法,如果放在现测的考量中,就像计量经济学的时间序列分析,在高频交易中大量用的是时间序列分析,现在做的把协同过滤和时间序列分析结合起来,大家可以做出一个相应的应用。
第二是用户画像,结合快速迭代的贝叶斯学习,我们知道用户大概是一个什么样的人,什么样的人会做什么样的事情,但是这个惯性趋势放在一个特定的场景中我们可以看以前的需要,到一个修正,这个修正必须在实时中完成,很快的迭代。
第三,百分点开发了一些数据动态可视化和人机互动的产品。人脑的优势在于对一个场景的综合把握能得到一个比计算机更好的预测,但是大数据能快速实时的截取这样的信息,如果我们动态的展现出一些数据来,通过人机互动就可以判断,有超市人员在的条件下,判断这位女士喜欢橘子,让电脑直接判断的话不一定很准确,但是我们通过动态数据可视化使得人对一些全景的预测和电脑对数据的抓取有机的结合。
现在一些学者重点研究的就是基于运筹优化和行为科学的反时序预测,换句话说用未来来预测当下,听上去有点儿悬乎,很多时候我们远处的未来,你可能飞机票买好了明天要飞这是确切的未来,我们有了确切的未来用它来帮助预测当下,比如你在一家百货商店,王府井百货,我起码知道你肯定是要出去的,你不可能一辈子呆在里面,你要出这家百货店就这几条路径,根据这一条就可以通过运筹优化的方法告诉你大约几条选择,每条选择经过哪几个货架,有几个可能的商品推荐,把几个非常难以把握的预测问题变成已知终点反推回来的运筹优化问题,有相当多的应用,这也是百分点以前做和现在做的非常紧密的结合点,百分点的DNA本来就有实时推荐,和现测是不谋而合的理念。
百分点在建模方面做的非常多的就是用户画像和细化场景,仔细推敲,细化场景更往前走一步不光研究用户场景,而是研究用户在这个场景里的目标是什么,在这个会场上我的目标是跟大家交流,任何用户在任何商业环境或者任何场景当中,它实际上都有一个目的所在,到一个饭店的目的是吃饭,到学校的目的是读书,我们把这个目的找到,刚才我讲的技术,通过目的知道未来你想要的东西,反推回来当下想干什么。已知用户画像推他当下的想法行为,目前建立的这套数据体系和场景细分,包括用户画像,为什么在现测的范围里有很多的应用。所以,积累大量的数据,有非常好的前景。
像大数据预测公司一样,很多金融相关的信息及实时经济指数,对过去的描述来预测未来。还有一个跟金融信息相关的领域,个人征信。从现测角度,以前所谓的人口学指标,过去行为的指标,现在有更多的做法,一个人购买大件的商品,买一辆车,这个信息马上反馈到你个人的征信系统,你的现金流水平发生变化,这样一种实时监控的做法,类似的有在做个性化的企业营销。
同样刚才举的例子,个人的金融,信用卡根据你实时消费情况的变化可以计算出你这个月大概还能用多少钱,每个月开销钱的总数,银行存款多少,根据这个反推回来,反推你买什么东西,否则你推荐的用户可能没有财力消费。
第三个应用,旅游出行管理。你的航班,比如我知道明天天气要变化,可以通过这个反推回来知道你在北京要开会,明天天气不好,可以实时提醒你是不是把机票换成火车票,这是现测的概念,知道未来的一些确定性反过来帮助你解决不确定性。
个人健康管理,目标三个月减重五斤,根据这个可以反推回来每天该减多少,吃多少,实时调整你的健康管理计划。
最后把一些东西放在一起,就可以打造所谓的数字生活的助理,把你整个生活各个方面管理起来,给你提供最佳的体验。
为什么刚才反复强调现测的重要性,而且大数据应用有极大的优势,以前大数据经常提到这一点,所谓的三个V或者四个V,但是通常大家对大数据的探讨,这个V往往是Velocity,能够很快的把海量的数据进行处理,当你知道刚刚过去的事情和即将到来的未来。另外,大数据的相对优势,对短尺度的应用性具有特别的优势,但是对长尺度的应用性反而不具有明显的优势。
在长尺度上我可以说我也不需要大数据,用小数据就能获得成功。但是短尺度的预测,我说不出来今天晚上大家晚饭吃什么,大数据往往知道这一点,因为它知道你中午吃了什么,是哪里人,爱吃什么,现在在什么位置,周围有什么饭店,往往通过这个能推出来你要吃什么,而且通过你什么时候吃的中饭,身高体重,推出你什么时候一定饿得不行了,我们可以反推回来做一系列的介绍。这是大数据非常大的优势,在商业中应该特别重视这一点。通过大数据用户画像和细化场景建模发掘和利用行为惯性。这就是大数据价值提升和扬长避短的一个新的发展趋势,希望大家多多指正和交流。谢谢!
数据分析咨询请扫描二维码
CDA数据分析师认证:CDA认证分为三个等级:Level Ⅰ、Level Ⅱ和Level Ⅲ,每个等级的报考条件如下: Le ...
2024-11-14自学数据分析可能是一条充满挑战却又令人兴奋的道路。随着数据在现代社会中的重要性日益增长,掌握数据分析技能不仅能提升你的就 ...
2024-11-14数据分析相关职业选择 数据分析领域正在蓬勃发展,为各种专业背景的人才提供了丰富的职业机会。从初学者到有经验的专家,每个人 ...
2024-11-14数据挖掘与分析在金融行业的使用 在当今快速发展的金融行业中,数据挖掘与分析的应用愈发重要,成为驱动行业变革和提升竞争力的 ...
2024-11-14学习数据挖掘需要掌握哪些技能 数据挖掘是一个不断发展的领域,它结合了统计学、计算机科学和领域专业知识,旨在从数据中提取有 ...
2024-11-14统计学作为一门基于数据的学科,其广泛的应用领域和多样的职业选择,使得毕业生拥有丰厚的就业前景。无论是在政府还是企业,统计 ...
2024-11-14在当今高速发展的技术环境下,企业正在面临前所未有的机遇和挑战。数字化转型已成为企业保持竞争力和应对市场变化的必由之路。要 ...
2024-11-13爬虫技术在数据分析中扮演着至关重要的角色,其主要作用体现在以下几个方面: 数据收集:爬虫能够自动化地从互联网上抓取大量数 ...
2024-11-13在数据分析中,数据可视化是一种将复杂数据转化为图表、图形或其他可视形式的技术,旨在通过直观的方式帮助人们理解数据的含义与 ...
2024-11-13在现代银行业中,数字化用户行为分析已成为优化产品和服务、提升客户体验和提高业务效率的重要工具。通过全面的数据采集、深入的 ...
2024-11-13在这个数据飞速增长的时代,企业若想在竞争中占据优势,必须充分利用数据分析优化其营销策略。数据不仅有助于理解市场趋势,还可 ...
2024-11-13数据分析行业的就业趋势显示出多个积极的发展方向。随着大数据和人工智能技术的不断进步,数据分析在各行各业中的应用变得越来越 ...
2024-11-13市场数据分析是一门涉及多种技能和工具的学科,对企业在竞争激烈的市场中保持竞争力至关重要。通过数据分析,企业不仅可以了解当 ...
2024-11-13数据分析与数据挖掘是数据科学领域中两个关键的组成部分,它们各有独特的目标、方法和应用场景。尽管它们经常在实际应用中结合使 ...
2024-11-13在如今这个数据驱动的时代,数据分析能力已经成为许多行业的重要技能。无论是为工作需要,还是为了职业转型,掌握数据分析都能够 ...
2024-11-13在如今这个数据驱动的时代,数据分析能力已经成为许多行业的重要技能。无论是为工作需要,还是为了职业转型,掌握数据分析都能够 ...
2024-11-13作为一名业务分析师,你肩负着将业务需求转化为技术解决方案的重任。面试这一角色时,涉及的问题多种多样,涵盖技术技能、分析能 ...
2024-11-13自学数据分析可能看似一项艰巨的任务,尤其在开始时。但是,通过一些策略和方法,你可以系统地学习和掌握数据分析的相关知识和技 ...
2024-11-10Excel是数据分析领域中的一款强大工具,它凭借其灵活的功能和易用的界面,成为了许多数据分析师和从业者的首选。无论是简单的数 ...
2024-11-10在快速发展的商业环境中,数据分析能力已经成为许多行业的核心竞争力。无论是初学者还是经验丰富的专家,搭建一个有效的数据分析 ...
2024-11-10