如何用人工智能从新型数据中来寻找Alpha
随着移动互联网,小型卫星普及等,资产管理公司,尤其对冲基金公司开始利用人工智能从新型数据中来寻找Alpha。
本期精编版嘉宾演讲为合一创投首席数据科学家吴海山博士带来的分享,看了他讲的内容你会发现,原来数据分析还可以有这样一种不一样的形式……
关注公众号CDA数据分析师(ID:cdacdacda)并回复“吴海山”领取吴海山博士现场演讲视频和PPT。
现场纪实
首先非常感谢CDAS主办方CDA数据分析师的邀请,能够在今天和大家分享一下我之前做的一些与数据分析相关的工作。先简单跟大家分享一下我来合一的很重要的动机。之前在中国高校演讲和交流中,我发现数据科学和大数据已经成为很多中国学校的课程,有些学校已经开设大数据专业,甚至成立了数据科学研究院或者数据科学这个专业。但是一直没有很好的教材和线下组织,能够让学生接受到更多的业界里和数据科学、数据挖掘、数据分析相关的进展。有一次我碰到人大的赵总,发现CDAS是一个很好的组织,我认为它对数据挖掘能起很大的作用。所以我义不容辞很愿意来这里跟大家分享一下。
我介绍一下自己,我现在合一创投工作,创始人是优酷的创始人。加入合一之前我在百度研究院大数据实验室做人工智能和数据相关的研究。我今天和大家分享的课题是,用人工智能和新型数据在金融投资里如何寻找新的Alpha?当时我选择这个课题的方向也是有原因的,刚才拉钩网张总介绍到,现在能够促使大家学习数据分析的很重要的动机:我学习这个,我的工资可能会高一些,这个是很直接的数据。还有人说,如果我学会了数据分析,我能够用数据帮我来赚钱,也是一个很重要的动机。所以我今天分享如何用新型的数据帮我们做投资,帮助我们从数据里找到属于我们的财富。
首先说一下什么叫新型数据?大家做投资,做股票、债券也好,或者其他的投资收益也好,一个很重要的信息是怎么看市场的变化,去分析市场的趋势。大家可以回想一下,从历史上来看人类是如何在金融市场上分析信息的变化,来做决策的。大家如果看《人类简史》的话能够想起来,17世纪-18世纪英国女皇投资了东印度公司,东印度公司去全世界殖民地也好,或者贩卖烟草、茶叶也好,整个公司业绩的表现很大程度上取决于有没有海盗,而该信息的传播直接影响这家公司财富的表现。当时市场信息的传达没有这种变化,完全是靠着口头传播或书信传播,效率是非常非常低的。所以最先获取信息的人,在市场上就会有信息优势。上个世纪随着电话、报纸的发展,其实市场的信息已经开始通过报纸、电话,甚至电报传播。
20世纪70年代我们有了新型的资讯终端和软件,我们可以在终端上快速了解市场上发生的变化,帮助我们做决策。但是这个平台有一个弊端,如上面发布的信息是公开的,像CPI反映通货膨胀,政府一个月(每个月)公布一次,如七月份今天刚刚结束,到八月中旬公开CPI指数,在市场上有半个月延迟,这对决策的价值已经很小。还有其他指数,像GDP是每个月甚至每年更新一次,频率很低。另外,我们分析某公司和某企业时,证券公司的分析员,会如何分析一个公司呢?实地去考察。如投资水泥公司,矿产公司的股票,我们是在考察,去看看这个矿产变化怎么样的,工人数量有没有增多。这个效率也是很低的,比如我下面有一千家水泥公司,我不可能一年,我就是一天去一个的话,一年也就去360个,所以这个不具有可扩展性。现在随着手机互联网的发展和物联网的发展,我们有了新型的数据,能够帮助我们自动的去分析,去实时的监测市场的变化来帮助我们做市场的决策。比如说我们现在有各种各样的传感器,比如手机,我每天在手机上都留下了大家上了什么网站,买过什么地方,所有信息都可以聚合起来分析市场的变化。所以我们可以通过这种方式来去对金融市场的信号来做一个实时的分析。
这些新型的数据包括哪些呢?第一个,我刚才讲的手机传感器数据,它能获取哪些数据?如定位、WIFI连接,这些数据能够实时看到这个市场消费的变化,比如把所有去过某个酒店用户的聚合起来,我就知道酒店消费、餐饮行业等一系列就业的变化。另外就是微型卫星,以前发射一个卫星,这个卫星特别大,发射成本也特别高,一个卫星可能要几亿美元。现在互联网的发展也在改变太空行业,像美国有一家公司,它是已经发射了大概150颗微型卫星。这个卫星大概也就这么大。这个卫星的好处是基本上可以每天实时的最地球进行观测。我们以前观测一个东西的时候要先打电话或者进行预约,说能不能看中国大饭店的一个区域,如果那天正好下雨还看不到。但是这个可以对全球实现7×24小时的变化,这个数据对我们做金融分析价值非常大的。尤其像农作物、房地产、港口贸易。我分享几个案例,是怎么用卫星图像来做金融市场分局分析的。
还有物联网数据,大家知道现在基本上很多传感器上,很多设备上都已经装了传感器,我们可能机器人身上有些传感器,我们家庭用的智能家居身上有传感器。这些传感器可以记录,比如物流车上的流动,可以记录工业机器人运行的数据,还可以看智能家居的变化。通过这些传感器的数据,我们可以实时分析物流上的变化,可以看到用电量的变化等等。还有一个是大家可能无时无刻看到的摄像头的数据,这个数据有哪些作用呢?比如大家去停车场停车的时候有一个设备,是计费的。这样可以看今天来中国大饭店开会的,或者去某个商场消费的客流量和车流量的变化,可以具体识别某个车型的型号。通过这种方式可以大概的估算一下,丰田汽车销售是什么样子的。所以这些来分析线下商场的商品消费,像汽车消费。
还有像日常生活中每天能接触到的就是支付终端的信息,像去某些地方消费,POS机信息也可以记录消费者刷卡数据,甚至购房、购车数据,都可以分析整体线下消费的趋势。
另外,现在越来越普及的,比如像大疆的无人机,这个无人机能实时拍摄,像农业的图像,像房产现在正在建筑的一些工程施工的图像。通过这些数据我们能来分析一些农业、地产,或者建设工程实地进展的变化。
这里显示的图是说哪些公司正在搜集和分析这些数据。我举个例子,左边这个是全部用来分析卫星图像的,就是刚才讲的美国的那家公司,这是Google投的一家公司,这个主要是为对冲基金公司来做服务的。还有像可以通过签到的数据发现线索下某个餐饮店销量的变化,他们用这个变化分析某个公司的财务的表现,结果是非常的准。还一个比较有意思的,这个公司是用来搜集用户信用卡刷卡数据,通过这个数据聚合来具体分析,比如说沃尔玛每天的销量,来通过这个看线下实时销售变化。会发现很多创业公司去来分析相关的数据,或者说叫一些新型的数据。我觉得这个趋势在美国已经发生,我觉得它在中国也正在发生,我认为接下来一段时间中国越来越多的公司通过新型数据分析为金融投资市场做决策。
这是金融市场信息扩散的一个表,左边的是任何人都能看到的金融市场的一些数据,比如像每个公司发布财报的信息,每个公司股价的历史信息,这个信息是每个人都能获取,每个人都能来分析,它能在市场产生Alpha的价格就很小了;但是新型的数据,像我提到的卫星图像的,甚至像微博等等数据都能用来分析做投资。还有一些数据是刚兴起的,就是我刚才讲的,像物联网数据,包括无人机的数据,还有小型卫星Google地图的数据,这些信息我认为在接下来的市场能够产生Alpha的价值是非常大的。在座的各位如果想从事金融行业和数据行业,我觉得这块大家可以重点来关注的。
我现在分享一下我之前做过的用新型数据来做投资的案例。第一个,我们用定位的数据。这个是我们展示了手机定位数据一天的在除夕这一天全国用定位的可视化结果。大家看定位数据的本身,我们下面是没有放任何地图,这个可视化的定位数据本身已经能展示整个中国的轮廓,如果我们再放大一下,还能够看到具体的空间上的构造,比如看到黄河的轮廓,还有海河轮廓。发现人的定位数据的足迹可以非常好的刻画空间上的信息。这个对金融投资价值是非常大的。这是静态的。
还有一个展示北京一天二十四小时的动态变化。
还有一个没有提到的,就是用人工智能的数据分析线下消费的数据。我刚才提到一个指数,叫CPI指数来衡量通货膨胀的,这个数据一般是政府,像国家统计局每个月都会有调查员实地的调查考察和分析。美国有一家公司,它用图像分析的方式来去看市场上价格变化,怎么做呢?比如大家每天去超市买东西,买完东西以后如果用手机拍下小票的照片,或者能够在超市看到价格的图片,拍上去后后面会用人工智能的方式分析这个图片,它后面会找到价格的信息。它通过这种方式可以实时看任何一个国家线下消费数据,这样可以看到每天的通货膨胀的变化。这个数据已经被世界银行和很多组织来应用这个数据。
还有用卫星图像分析,大家看这是用卫星图像捕捉到地球上某个国家,某个区域储存石油的储油罐的图片。他们会有一些算法,能够根据图片识别出储油罐阴影面积的大小来算高度,进而通过这种方式算五可能的储油量的变化。通过这种方式可以每天扫一遍全球储油量的变化,这对全球石油交易非常有用的。还有用卫星图像看区域经济发展的,像我刚才讲的世界银行,世界银行想去为非洲不发达国家贷款,它面临的问题是到底贷多少款给他们,像有些国家长期处于战乱无法获取这个信息。但是可以通过卫星图像,像这个地方楼型建筑比较好,可以认为比较发达,还有些房屋是破破烂烂的,所以斯坦福大学建立了一套方法,根据卫星图像来进行分析来为世界银行提供服务。
还可以看一个零售商的变化,以美国为例,美国超市都建在郊区,大家买东西都把车停在商场的旁边。如果通过卫星图像和机器学习的方式,识别每天商场旁边停多少车,就可以测算出来每天有多少人来超市。
我们做的工作是用卫星图像和结合其他的数据去识别空间区域的功能。第一,我们左边是卫星图像,然后又结合路网的信息,比如我们这个区域是一个路,然后再结合刚才说的手机移动数据定位,然后我们自动识别这个区域是工行,这个区域是写字楼。这是我们叫全卷积神经网络的一个算法,我就不展开说了,大家可以在我们网站上看到这个算法。这个是我们识别出来的几个案例,这两个案例都是我们识别出来的功能上的区域,这个边界是通过算法识别出来的功能边界。这个是通过深度学习再结合卫星图像去识别空间区域功能。还有一个移动手机定位的数据,我把这两个数据结合起来,比如左边的图是上海的一个地图,右边两个:蓝色的区域代表了我们用刚才的算法去识别的工厂,下面的区域是我们用这个算法来识别的商场写字楼。我们有了这两个区域之后,我们再结合用户的定位数据,比如这是一个用户的线下移动的规矩,用有机算法来算出用户去什么地方消费,在什么地方驱逐。把这些信息聚合起来可以实时看某个区域的劳动力的变化。尤其是对证券和投行的分析师,他们调研的时候工厂必须去考察,但是现在有了卫星图像可以识别这个区域,和有多少人在这儿工作,就可以识别出来这个区域的劳动力观察,就不用去现场考察了。
这个图可以看到劳动力在第六年有明显的下滑,这个倒闭的其中一个是苏州的工厂。下面两个是反过来的,有很多人搬到这里工作,或者说这个公司融资完之后开始大规模的扩张,会发现劳动力也有大幅度提升。通过这种方式我就可以实时来看全国的各个工业园区劳动力的变化。如果说把劳动力数量聚合起来,就可以来看基本上整个中国范围内宏观的就业趋势的变化。大家知道衡量宏观经济还有一个指标,叫失业率。失业率在中国每年政府工作公布的数字都是在4%。我们的数据其实发现,可能结果不一定是这个样子的,我们这个给出来是一个,我们发现就业园区就业的趋势其实整体来讲是有一定的下滑的。但是正如刚才拉钩网展示的数据发现,其实我们发现新兴工业园区,尤其像高科技园区,或者像生物制药园区,它的就业趋势是上升的。所以说新兴工业园区就业趋势我们认为是比较好的。
这是我们给出了全国非常大的四千个商业中心的数据,我们刚才讲通过卫星数据可以识别商场的边界,可以通过定位数据识别到每天有多少人来这里消费。把两个聚合起来可以看到全国范围宏观的线下整体消费趋势。这里其实包括了很多像银泰或者万达很多商超聚合的结果。我们也可以看具体的某个公司的趋势来做分析的。
刚才讲到通过卫星图像来获取一个区域边界,再通过定位的方式聚合,来去看这个区域的消费和就业。还一个方式,比如银泰商场有一个海底捞,如何看海底捞里具体的消费呢?我们有一个深度学习的算法,能够自动识别预测用户是不是到访这样一个具体地点的概率。大体就是我们会用很多种数据,像定位数据、签到等数据,然后结合贝音丝深度学习的算法来预测客户到访海底捞的概率。有了这个到访概率我们算法的准确度非常高。所以如果能预测某个客户具体到访每个地方的话,就可以看用户到某个地点的客流量的变化,这是我们预测的用户到访大中华区中国大陆的30个苹果旗舰店的客流量的变化。通过客流的变化预测苹果公司在大中华区财务营收的变化。前两次我们模型的误差都非常低,在2015年Q4预测的结果可能要上升15%,它们财报结果是14%。另外一次我们认为它2016年结果要下滑25%,它们财报是26%。这个其实从另外一个侧面证明了,通过签到的数据,WIFI定位的数据去预测一个公司的营收结果是靠谱的。
还有预测电影院的票房收入,我们可以通过历史的时间序列建一个模型去预测。我们现在是把用户去到访电影院或者搜索电影院,或者签到电影院数量作为一个特征去预测电影票收入,我们发现这个模型准确度提升的非常高。红色的结果是我们使用了新型数据预测结果,蓝色的结果是我们只用时间序列预测,发现误差降低非常多。如果我们预测比较准,可以预测电影院营收的状况。这个B,我们预测了保利的电影院,我们预测的误差非常小。我们对新型数据预测这家连锁电影院票房结果是非常准的。但是用同样的方法预测另外一家电影院,发现曾经有一段时间预测的误差特别高,像8-9月份。我们模型预测的票房收入可能会比较少,但是它报出来的电影票房非常高。后来我们调查,因为这个电影院上映了《捉妖记》,进行了电影票房的作弊。
我们看一下具体行业的,这个是汽车的,这个是我们用新型数据到访4S店的数据,这样可以看出来汽车销量变化。为了证明我们结果是靠谱的,我们把我们数据,蓝色的线和汽车工业协会的线做了对比,我们发现我们的趋势跟它们非常吻合的。但是我们的结果好处是,新型数据可以实时分析这个市场的变化。所以我们结果对分析市场变化是有很大的优势的。
第二个产业,是线下餐饮行业的变化,我们把所有的到访,像麦当劳、全聚德等店的到访,我们做了中国线下餐饮消费指数。为了证明我们这个比较靠谱,我们和另外一家公司的指数对比,是银联,大家在POS机上刷卡的指数,我们发现在2016年之前整体是非常吻合的,但是我们的结果在2016年之后线下餐饮行业的趋势下滑非常严重的。后来我们调研分析我们认为我们结果更靠谱,因为尤其是像外卖行业,其实在很大程度上影响了线下很多餐饮行业的变化,很多人可能就直接叫外卖,不用去餐饮店吃了。
还有一个应用就是对房地产投资的。大家知道这种情况在中国是非常常见的,就是中国有很多空的楼盘没有人住。很多媒体开始报道哪些地方是鬼城。但是没有一家用数据的方式帮助我们分析这个城市是否空的很厉害,到底空的多厉害?我们刚才讲过我们可以用用户手机定位的数据和手机图像的数据,我们可以通过机器学习和人工智能算法去识别,从而我们发现中国很多的空置率,这是我们给出九个空城特别多的区域。这个是鄂尔多斯,这个城市非常有意思,之前大家说鄂尔多斯是空城,这个空在什么地方呢,其实大家没有概念的。我们发现一个非常有意思的现象,是鄂尔多斯的新城区空的很厉害,就是左下角这个,跟媒体报道是比较一致的。还有右上角发现主城区的郊区空置的楼盘也很多。这个城市很有意思,就是很多由于原来逐渐衰败的城市除了新城区衰落,其实郊区的一些房子入住率也是比较低的,很重要的原因就是这个地方的就业率开始下降,很多真开始搬到其他地方去居住和工作了。但是我们也发现一个比较意思的现象,是之前媒体报道特别多的城市是郑州的新区,但是我们数据发现现在越来越多的年轻人愿意去新区工作。我们认为郑州新区不能再是传说中的空城。这是我们用数据发现中国房地产的变化。
我们的研究也获得了很多国内外知名媒体的报道,这是一些报道我们相关研究的媒体。
非常感谢大家在周末时间来到CDAS现场,非常高兴能与大家分享之前做的研究。谢谢。
CDA坚持打造高端数据分析学习社区和数据分析认证
CDA 数据分析师,作为国内领先的数据分析师人才教育品牌,一直致力于打造中国最棒的数据分析学习社区。旨在加强国内外乃至全球范围内正规化、科学化、专业化的数据分析人才队伍建设,进一步提升数据分析师的职业素养与能力水平,促进数据分析行业的高质量持续快速发展。
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16