从大数据到AI, 我们走了多远?-CDA数据分析师官网

从大数据到AI, 我们走了多远?

2018-01-03

从大数据时代来到人工智能时代，我们究竟走了多远？

11月6日，京东举行 JDD京东金融全球数据探索者大会，在全球范围内寻求志同道合的伙伴共同探索大数据和人工智能在金融领域的最佳实践。中国工程程院院士、北京大学教授高文应邀做会议演讲，演讲主题为“探索大数据，迎接人工智能时代”。演讲中，高文院士不仅介绍了大数据和人工智能的联系与区别，也仔细讲解了他认为的人工智能走到了哪里、还要走多远。

高文：各位嘉宾早上好，我和杨强教授是多年的朋友，从1991年我们一起参加世界人工智能联合会，相识了以后，二十几年每年都保持一些沟通、交往，所以开始他动员我来这里说几句的时候，我说这是一个金融创新的会，我去了不知道说什么好，我本身不做金融。后来他说没关系，你就说说比较宏观的东西好了，我说这个好办，北京大学的特点就是都在天上，天马行空随便讲，今天我们就随便讲讲。

我们现在这个时代确实是已经从大数据时代，移到人工智能时代。为什么这样讲呢？实际上这和大数据本身的内涵关联性比较强，为什么说关联性比较强呢？我们知道大数据本身的规模特别地大，越来越大，从原来的EB级现在正在往ZB级发展，数据本身在不停地增加，我们叫数据泛滥。这个数据泛滥，比如和零售有关有很多数据，再早一点是科学的数据，不管哪种数据都是和网络关联的，个人自媒体出来以后网络数据又非常多。但这些数据以前大家都把它叫做大数据，最近有一个讲法，大数据不是规模大，而是垃圾多的数据叫大数据，利用率低的数据。比如视频数据，另外网络的个人数据，真正被利用的比例还是很低的，大数据本身的概念越来越大，但这个数据大了以后到底怎么使用怎么发展，最近一段时间大家都深入讨论，比如说数据是不是越大越好，是不是什么东西都一定要一个数据？回答是No。最近有一个非常好的案例，AlphaGo下围棋，以前是需要使用人类下围棋的数据，同时自己尝试了三千万局的数据，最近的AlphaGo Zero不需要人类对弈数据了，自己会生产数据。现在我们就可以提问，什么样的情况不需要外部数据，自己生产数据就够了？我和有些专家讨论，觉得什么样的AI系统不需要外部数据就可以战胜人，实际上就是满足三个条件：

集合是封闭的，不管你是状态集还是什么集，你的集合是封闭的，我们知道围棋集合是封闭的。

规则是完备的。也就是说下棋什么地方能下，什么地方不能下，这个规则完全完备的，不能随便更改。

约束是有限的，也就是说你在约束条件下，不可以递规，因为有了递规之后往下推延就停不下来，而有限的时候就能停下来。

满足这三个条件，不需要外部数据，系统自己产生数据就够了。所以可以想见，今后有很多的情况你去判断这个人和机器最后谁能赢，满足这三个条件机器一定赢，不管德扑、围棋，类似的情况很多了。

是不是所有的情况都是这样？当然不是。你可以看现在很多的交易、物流、零售，其实它有很多的条件一直在变，不满足刚才的条件，这时候你需要很多外部的数据，但是不是有外部数据就够了？当然不是，外部数据怎么用？它自己不会去产生一个用法，这个用法需要靠人，通过人工智能的这些手段，去用这些数据。所以人工智能实际上就是从大数据科学到人工智能是一个非常非常自然的迁移过程。

最近人工智能非常热，热到每一个人，每一个投资人都说我要投人工智能或者我要干人工智能，这件事好不好呢？不知道。但我们可以看看历史，以史为鉴，可以知道很多事情。人工智能到现在的发展，到去年刚好是60年。我们看看60年的发展实际上是经历了三个阶段，第一个阶段20年，1956年到1976年。第二个阶段，从1976到2006年，30年，2006年是第三波浪潮刚刚开始，它会持续多长时间？不知道，可能25年，可能35年，也可能是40年。当然按照20、30，下面到底是40年、50年甚至60年不知道。但你知道这个规律就知道人工智能绝不是已经把所有的事情做完了，如果用人的一生来比喻，人工智能其实现在大概刚上小学的程度，有的还不到小学的程度，所以现在它的历程可能只是1/10，后面有很长的路可走。

在人工智能路上有很多关键人物不能忘记，图灵不能忘记。计算机领域特别重要的一个奖图灵奖，其他学科有诺贝尔奖；诺贝尔时代没有计算机，后来有了计算机以后，大家就想计算机界也应该设一个和诺贝尔奖相当的奖，这个奖就是图灵奖，现在全世界一共65个人得过图奖，姚期智教授，是华人当中唯一得到图灵奖的。

在人工智能领域得到图灵奖的一共8位，马文.明斯基（1969），约翰.麦卡锡（1971），艾伦.纽厄尔（1975），赫伯特.西蒙（1975），爱德华.费根（1994），拉吉.瑞迪（1994），莱斯利.瓦伦特（2010），犹大.伯尔（2011），就是照片上这八位。整个计算机科学领域人工智能实际上是插在宝塔尖的1/8。莱斯利.瓦伦特，犹大.伯尔，后面这两位是2010年和2011年获奖，都是和概率推理和概率学习、因果学习有关的两个学者。

总体来说，人工智能到现在有三个主要的代表性的学派，哪三个呢？第一个是用逻辑的方法做人工智能，通常我们把它叫做逻辑主义学派，或者叫做符号主义学派。第二个是以连接主义为基本工具，就是用神经元网络，今天的深度学习就是它一个典型的代表。第三个学派，从搞控制论的人，比较主张的一个学派，更多的是做这种自适应和进化、计算。这三个学派里各有千秋，不能说哪个好哪个坏。

什么叫人工智能？刚才主持人说的非常好，说我们今后可能就是人类智能和人工智能的一个对决，其实人工智能是人类智能的一个计算机的实现，从对决的角度，它永远不可能超过人类智能，只是说在某一个特定的方面它可能胜出，但从智能本身它没办法胜出。我们看看智能的定义，其实智能有很多方面，包括逻辑能力，语言能力、空间能力、感知能力，包括音乐感知的能力，肢体的控制能力。后面这几个是比较难的，包括人的内省、自我反省，包括人际关系的能力，包括自然探索的能力，比如发现一些新的东西，完全没有任何线索，你能想出我要做这个，我把这个问题解决掉，自然探索的能力，包括图像、图形的感知能力。

其实智能分为这九个能力，而现在的人工智能在这九个方面只有三个做的还可以，有六个方面还相当的远，所以我们说现在的人工智能要想挑战人类智能，路还很长。

为什么我们说人工智能60年呢？因为1956年当时有一个里程碑式的会议，达特茅斯会议。当时人工智能这几个最元老，那时候很年轻，他们集聚到一起开了两个月的会，怎么样让机器具有人的智能，讨论定出了人工智能的最终目标，什么叫人工智能。现在看起来1956年定义的人工智能的白皮书，到现在一点都不过时。所以我们说年轻人还是非常厉害的，特别同意刚才强东老总说的，对新事物、对年轻人要充分认可，那时候三四十岁的年轻人，那时候计算机刚刚兴起，人工智能概念没有，他们就提出来我们要怎么做这个东西，这是非常了不起的一件事，现在看起来确实他们做的是对的。

这次会议开了以后，全世界当然主要是美国、欧洲了，那时候很多学校都开始跨入人工智能热潮当中，典型的像斯坦福大学、CMU、MIT、哈佛大学很多人都做相关的这些研究，那个阶段大家采用的技术手段，主要是逻辑主义或者符号主义。

什么叫逻辑或者符号呢？实际上就是他认为一切的推理，我都可以用逻辑演算的方式来实现，我只要定义了整个逻辑演算的体系，做一个规则，就可以完成任何事，可以进行推理、数学证明，可以创作、奏乐等等，所以全是通过符号的方式来做。这个事其实我们小学就学过代数运算，逻辑它也是运算，但它不是用的代数运算，是用的布尔运算，它其实和代数运算非常接近。有了这个运算就可以对它进行推理，推理你要使用一个工具，他们使用了演绎推理的工具。

我们知道到现在为止，最主要的自然科学的定理使用的都是演绎推理的方式来完成的。比如说亚里士多德他的三段论体系就是非常典型的演绎推理，欧几里得的几何学也是用这样完成的，牛顿力学，麦克斯韦、爱因斯坦全都是用演绎定理推出来的。

所有演绎推理的基础满足是三段论方程，什么叫三段论，我有一个大前提，这是一个一般的原理，我有一个小前提是我要研究的特殊情况，根据大前提、小前提得到一个结论，这个结论是根据一般情况，对特殊情况做出一个判断，这就完成了演绎推理，这就叫三段演绎推理。

所有的基础逻辑的方法都是这样做的，为了做这个当时设计了很多的人工智能语言，用这种语言可以写人工智能的方程，机器就可以去证明。

当然这听起来很好，而且第一次浪潮，大家都认为十年之内人工智能一定可以完成很多事，但一直到1976年前后大家发现一开始定的那么高调的东西绝大多数都实现不了，加上当时有人落井下石。1973年有一个英国人发了一个报告，给AI拨一大盆冷水，把AI研究分三类系统，A是指自动机、B是机器人、C为中央神经系统。自动机和中央神经系统研究是有价值的，但进展太慢；机器人的研究毫无价值，而且非常令人失望，所以他建议把所有的机器人研究都取消掉；A和C因为它本身令人失望，所以也是非常低调。这个报告出来以后各国ZF全部都把对人工智能投入的经费砍掉，马上就进入了严冬。所以1976年实际上是人工智能第一次的严冬的到来。

1976年之后尽管没有经费，学者的可爱之处是给钱也做，不给钱也做。因为做逻辑的，前面已经把自己的体量拉的很大，没钱物的马上就地卧到，没得到钱的还在继续做。当时做神经网络的，基本上没有得到什么钱，不看好，所以本身就是教授带几个学生在那玩，这个领域虽然面临寒冬了，但对他来讲没有变化，反正盛夏的时候没有钱，寒冬的时候还是没钱，所以带着学生继续玩。

这一玩玩出花样来，1976年开始有很多做神经元网络的，不停的写东西、发东西，一直到1986年出来一个让人眼睛一亮的东西，这个东西叫BP算法（雷锋网(公众号：雷锋网)注：“误差反传网络”，也就是我们现在熟知的反向传播）。

以往的神经元网络只能做非常小的事，做不了大事。但这个东西出来以后可以做大事了，所以就推动了这个领域发展的速度非常快，时间关系我就不展开了。

但它也只能解决一些问题。一开始人们也是期待要解决很多问题，其实也是遥遥无期，到最后又来了第二次的低谷，包括日本第五代机的失败，当时在斯坦福大学要建一个知识百科全书的项目都失败了，使得第二次人工智能又跌入了低谷。

第三次是从2006年开始的，现在是人工智能的三个大牛，一位在多伦多大学Geoffrey Hinton，一位在蒙特利尔大学Yoshua Bingeo，一位在纽约大学Yann LeCun，这一年分别发表了三篇文章在讲一件事。刚才说神经元网络可以进行大规模的学习，而且可以学习的速度很快，精度很高。

这个文章出来了以后，当时大家并不知道这个东西要怎么用，这个东西被谁给激活了，李凯和李飞飞做的ImageNet，主要操刀是李飞飞做的。ImageNet是一个全球的图像识别的比赛，在2012年以前都是用常规的方法，2012年开始有一个参赛队用了这个方法，比别的队错误率马上降低了一半。到2013年其它方法全部退出，全都是深度学习，2014年不停地改进。所以可以看出2015年的时候错误率已经降的非常多，深度学习的网络也非常多。到2016年的时候几乎做到不光人没法比，错误率已经低到不需要再做了，所以李飞飞选择2017年宣布这个比赛停止，不再做了，因为其实已经没有太大促进意义了。

所以今天的第三轮由于深度学习，由于刚才所说的产业界的热情参与，所以我们产生了很多新的企业，有很多新的机遇，这是非常好的事。

在这个机遇下国家干点什么，国家有一个中国人工智能2.0的发展战略研究，这是中国工程院一起来搞的，今年发布了一个重大研究计划。关于这个中国下一代人工智能，起初是叫AI2.0，后来经过中央高层决定，把它正式名称叫作中国新一代人工智能，这里面主要是做五个关键技术和一批应用。

这五个关键技术，包括大数据智能，这和前面讲的大数据关联性非常强。第二个方面是群体智能，依靠群体的力量推进智能的研究。第三个是跨媒体智能，要把声音、图像、文字、自然语言所有这些东西联结在一起来研究智能，这是跨媒体智能未来所希望达到的目标。

第四个是人机混合增强智能，人和机器混合起来怎么样让智能更高能力更强。第五个是自主智能系统，其实就是无人机，强东总刚才也强调我们在物流方面做无人系统。这五个方面和应用以及下面支撑的关系，我们有五个支柱，上面是应用，下面是基础支撑。

那么这样一个轮廓，实际上就是对整个从国家战略来说已经进行了非常圆满的布局，这个是不是够了？其实还不是。就是如果看整个人工智能学科的轮廓，包括计算机视觉、语言识别、自然语言、人机交互、机器人学习等等这样的方向，这些方面目前大的布局是沉浸到应用这个方面。

涉及到人的九类智能，是我们在逻辑语言文字和图形图像来说现在已经做的相当不错，中间六类还是有相当的距离需要探索。

总结一下，历史总是这样螺旋前进的，它基本上人工智能的三次浪潮也是从符号主义到连接主义，到目前还是以连接主义为主的浪潮。这个符号主义到现在为止已经有30多年比较寂寞了，但它作为人类智能的一个高等抽象，它应该是发挥作用的，所以怎么发挥作用，这个是未来大家可以慢慢观察。

连接主义，就是神经元网络、深度学习，目前是非常非常大行其道的，但怎么样解决小数据甚至没有数据的学习？实际还是有相当大的挑战，特别是很多的学习结果是不可解释的，这是最大的挑战。行为主义是注重自适应和进化，这是从人从猴子演化过来，它可能更接近。它怎么样在学习方面做得更好，还是需要探索。

不管是企业、国家投资，大家利用好天时地利要好好干一场，不管这一轮是20年，我们现在刚刚11年，所以后面还有9年的好日子过，如果是30年还有19年好日子过。所以我想人工智能肯定至少还有10年到20年左右的好日子过，大家珍惜这个机会。当然人工智能既然是一个少年，少年主要的成长靠什么？靠学习，靠知其所以然的学习的研究，中国下一代人工智能也会在这个方面进行一些布局，我们就知道今后的方向，也许对在座各位，也许会有点帮助。

好，谢谢大家。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

人工智能大数据深度学习计算机视觉神经网络

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇数据分析师必备8个入门技巧

下一篇2018改变AI的5个大数据趋势

从大数据到AI, 我们走了多远?

CDA考试动态

CDA报考指南

热门栏目

最新资讯

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...

【干货】我手里有好几个产品，该怎么分配资源？-波 ...