李德毅:大数据突破点在于聚类
2015年4月9日,第三届中国电子信息博览会在深圳召开。工业和信息化部电子信息司司长刁石京主持开展了新一代信息技术产业发展高峰论坛。中国工程院院士李德毅发表了主题为“大数据认知”的演讲,对大数据的发展前景做出了展望。
人类社会文明已经进入到了数据密集型的新时代,大数据已经成为重要的资产。在李德毅看来,大数据本身既不是科学,也不是技术,它反映的是网络时代的一种客观存在。而数据数量巨大,价值密度低,实时在线,多源异构,给人们的认知造成了很大的困扰。
李德毅认为, 人类的认知科学要想有所突破,首先就要在大数据聚类上去的突破,聚类是挖掘大数据资产价值的第一步。这种聚类是跨学科、跨领域、跨媒体的,并且已经成为许多行业的核心竞争力。人脑的认知能力不能够全部、完整、统一地形式化,但特定的情境下的认知能力是否可以先局部地形式化。
智能机器人是物联网不可或缺的端设备,一直以来都是人类关注的重点。李德毅认为,机器人既使用大数据也产生大数据,既是大数据的产物,也是大数据的推动者,机器人是大数据的认知的典型代表。人脑的认知能力不能够全部、完整、统一地形式化,但特定的情境下的认知能力是否可以先局部地形式化,而机器人就是人类的思维移植。
以下为李德毅演讲全文:
尊敬的怀部长,各位来宾,女士们,先生们,我汇报的主题是大数据认知,云计算、大数据、认知,大家知道认知是现在全球都感兴趣的话题。所谓认知,就是怎么样获取知识和技能的能力,所以我的第一个小标题是讲一下认知。
大数据标志着一个新时代的到来,这个时代的特征不只是追求丰富的物质资源,也不只是无所不在的互联网带来的方便的多样化信息服务,同时还包含区别于物质的数据资源的价值发现和价值转换,以及由大数据带来的精神和文化方面的崭新现象。
大数据来源于人类的测量、记录和分析世界的渴望和无尽的追求。随着信息技术,尤其是传感器、通信、计算机和互联网技术的迅猛发展和广泛应用,人类获取数据的手段越来越多,速度大大加快、成本急剧降低,层次和尺度更为精细,揭示自然现象和社会现象更加深刻,人联网和物联网又使得人人物物都成为数据源,这样一来,大数据成为网络时代人类社会的重要资产。
我想说一个观点,大数据本身既不是科学,也不是技术,我个人认为,它反映的是网络时代的一种客观存在,各行各业的大数据,规模从TB到PB到EB到ZB,都是以三个数量级的阶梯迅速增长,是用传统工具难以认知的,具有更大挑战的数据。
数据量巨大,价值密度低,实时在线,多源异构,怎么办?举个例子吧!聚类,物以类聚,人以群分,这是人类几千年来认识世界和社会的基本能力,是从大数据中发现价值必须面对的一个普遍性、基础性问题,是认知科学作为学科的学科,要解决的首要问题。无论是政治、经济、文学、历史、社会、文化、还是数理、化工、医农、交通、地理、各行各业的大数据或宏观或微观的任何价值发现。
2008年XX专刊登了一篇文章,人们对小标题关注不够,这个小标题讲的PB时代的科学怎么做。大数据分析和挖掘的首要任务是聚类,这种聚类是跨学科、跨领域、跨媒体的。
聚类的挑战性很多,有人是并行计算等等,我不细讲了。我想说的是大数据聚类表现形态。
我想用几个例子来讲一讲,人类走过了几千年的实验科学、几百年的理论科学,保险是一个很传统的行业,基于概念评估的生意,保险公司对车险客户是这样聚类的:A类连续两年没有出车祸的,B类,最近一年没有出车祸的,C类过去一年出了一次车祸的,D类过去一年出了两此及以上车祸的。我从机场到深圳来,你坐飞机从北京到深圳,保险公司给你付了,我一了解,这个保险是20块钱,这个保险公司买了你三个大数据,身份证,还有你的手机号,各位企业、各位领导,各位老百姓,你们想一想。
物联网时代,当汽车成为轮式机器人,成为大数据发生器以后,就是一个大数据发生体,每一次驾驶,每一次维修,每一次行驶,甚至每一次刹车,都会记录在岸,利用大数据聚类,保险公司可对一个车况好、驾驶习惯好、常走线路事故率低,不勤开车的特定客户,给予更大的优惠,而对风险太高的客户报高价甚至拒绝,例如出租车司机跑的比老百姓多得多,总之能够给出包括保险费支付方式在内的个性化解决方案,这就颠覆了保险公司的传统商业模式。这就是大数据聚类成为保险公司的核心竞争力,我扩张一下,就是大数据聚类成为很多行业的核心竞争力。
非大数据时代,做一个人脸的识别,我们可以提取它十个特征,第二类先结构化存起来,你想一想,如果十个特征都一样的话,两个人是不是同一个人呢?当然,这也是不可能的,但是我们再想一想,人类智能来看,它忽略了什么呢?我认为它忽略了太多,这种人脸识别仅仅是几何结构的聚类,落入集合学框架,忽略了聚类的不确定性,忽略了聚类的多样性等等。
再举个例子,大数据写诗,人们熟读众多诗词,记住了针对各种意境的大量字串。例如说李白一生写诗1010首,把他所有诗句进行机械切割。李白给毛主席诞辰100周年写一首诗,就是这样。
大数据对形式化方法的挑战是非常严峻的,在数据密集型的网络时代,任何传统学科,或者传统的行业,它的公理、原理和定理组成的语境,遇到互联网+的挑战之后,这样一来,传统的学科行业,或者是交叉学科,成为一个大数据、小模型、小定律、交叉学科的时代,模型和程序要围绕数据转。
创新,表示在创造一个新的语境,新的坐标系,在这个坐标系下研究大数据,在互联网情况下,如何创造你新的坐标系,新的语境,否则难以有新的发现。
实践中的研究,由下而上要深入,数据要胜过程序,价值要胜过知识,关联要胜过因果,更多要关注有意义的小众,把这些小众累积起来才成为大众。
通过大数据聚类即时发现价值,要充分认识大数据中的不确定性和价值的隐蔽性。
机器人如何认知是我讲的第二个问题,这七个字,可以有两种划分,一种是机器人如何认知,你要把这个弄清楚,我觉得实际上是在弄这个,机器人在想,人如何认知,智能机器人是集新材料、新工艺、新能源、机械、电子、移动通信、全球定位导航、移动互联网、云计算、大数据、自动化、人工智能、认知科学、乃至人文艺术等多个学科、多种技术于一身的人造精灵,是人联网、物联网不可或缺的端设备,是人类社会走向智慧生活的重要伴侣。
机器人既是使用大数据也产生大数据,既是大数据的产物,也是大数据的推动者,机器人是大数据的认知的典型代表,机器人时代真的来了,我们希望我们以后的黄牛退休、铁牛耕地,这个铁牛就是机器人,农民进城,机器人耕地,医疗与健康机器人,服务机器人更是上上下下,当然还有太空机器人等。
我先讲一下服务机器人,高考机器人,就是由知识的碎片化,大数据来认知,就说明我们的教育不能光是填知识,我们现在做一个报告,我们可以用机器人来撰稿,机器人导航,机器人手术等。
如果语言、文本、歌曲、剧本,都可以用虚拟机器人,训练他的形象、情感、动作、语音、语调、风格,利用大数据,发出新的歌声。
机器人革命是世界性的、时代性的,机器人换人首先不是换掉理发师之类的劳动者,而可能是产业工人、文秘人员、医生、服务员、甚至士兵,他们将升级转型成为机器人的创造者和使用者,成为懂得集成、维修、管理机器人的专业人才。跨界渗透和跨界创新诞生的智能制造也是我国抓住历史机遇的又一次崛起。
我想做一个可穿戴设备的案例,如果你能做一个人和人的衣服,动力驱动,研制一个可穿戴的机械,帮助负重、助行、转体、条约的话,不仅可以让机器人站起来走路,还可以让特种兵成为飞人、超人。
这就是这样一些机器人,可穿戴的外部增强的机器人,这是我想做的家庭服务机器人,今天企业家很多,我在这投一个标,我想做这边这一个机器人,谁能做下面的轮子,从餐厅到卧室,从卧室到书房,希望大家有兴趣能够谈一谈。
机器人还将进一步刮起穿戴风,苹果做了手表,这个手表里面有一个检查老年痴呆的,苹果发表了5个APP商家,启动全新医疗应用,我们想一想,如果有一天让手机或者手表成为医疗诊断的工具,成为用于慢性管理的医患视频互动平台,成为医疗互联网个人健康与医疗的数据发生器,成为远程诊疗的开始,成为某种流行病的社会调查,成为病友社交网络,甚至会颠覆传统看病模式,颠覆传统医学研究。
生物机器人遐想,我们人的想象中,生命的多种形象,如果器官移植越来越发达,那么移花接木就屡见不鲜。将来,谁是谁搞不清楚了,如果这个人的脸换到另一个人的身上去,怎么界定?从定制治疗到定制婴儿,改造人类胚胎DNA,会不会避免遗传性疾病?如果将人的思维移植到机器人,那么思想是不是不朽的呢?
我现在想做一个东西,我想做一个机器驾驶脑。在脑科学取得重大突破前,能不能做得出来?人脑很复杂,我跟一个美国科学院士,是个华人,在科技部开的咨询会上,他告诉我一句话,让我很吃惊,他回答我的问题,脑里要花一个脑袋功能结构图,100年都画不出,他说你看一看生命科学的书,那叫人脑的组织结构图,全球已经发现500多种脑部疾病。
科学界正把脑科学和认知科学作为当前的重大研究领域,我们热切期待生物脑的出现。
难道认知科学就是研究生物脑的自然属性吗?怎样把社会属性研究进去呢?我提出来要研究文字、文明和传承,我们各种高端生物都会有语言、文字的,因为有了文字,才有了文明。要研究脑认知的后天属性,研究脑发育、可塑性与自然环境的关系,认知也是后天学习和积累的结果,是与社会环境、社会实践、群体交互等密切相关的,要建立人脑认知的成长机制:如何创建神经元之间新的连接和新的认知。
我们想一下,人的智能,除了记忆之外,在学习和思维上,到底有什么能耐?客观地说,或者概括地说,一个是逻辑思维,一个是形象思维,形象思维最主要的是两个,一个是类比,一个是联想,主要解决的是图象。
因此我的技术观点是如果人脑的认知能力不能够全部、完整、统一地形式化、但特定的情境下的认知能力是否可以先局部地形式化,例如算术运算、简单游戏、博弈、定点开车等。
就在此时此刻,美国的一个汽车公司,真的从洛杉矶往纽约开,他要开5000多公里。我们有很多摄像头,还有汽车本身的运动参数,再一个就是我们的导航地图,还有雷达传感器,我们利用一次规划,和驾驶地图,形成一个初位化。我们认为,我们的驾驶脑主要涵盖了人脑关于驾驶行为的主要功能,长期记忆、短期记忆,还有瞬间记忆,就是感觉记忆,从感知到认知,到行动。我今天在博览会上找了好几个厂家,希望跟他们合作,X1芯片,我们能不能做出我们自己的XPA,让我们的汽车工业在智能时代到来中不错失又一次机遇。谢谢大家!
中国脑计划马上要启动了,我个人认为是要将三项研究同步进行,因为大数据三化来认识脑袋,保护脑,模拟脑,谢谢!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据驱动决策成为商业常态的今天,数据分析师这一职业正迎来前所未有的机遇与挑战。很多希望转行或初入职场的人士不禁询问:数 ...
2024-12-25数据分析师,这一近年来炙手可热的职业,吸引了大量求职者的注意。凭借在大数据时代中的关键作用,数据分析师不仅需要具备处理数 ...
2024-12-25在当今数字化变革的浪潮中,数据分析师这一职业正迎来前所未有的发展机遇。回想我自己初入数据分析行业时,那种既兴奋又略显谨慎 ...
2024-12-25在当今信息爆炸的时代,数据已经像空气一样无处不在,而数据分析则是解锁这些信息宝藏的钥匙。数据分析的过程就像是一次探险,从 ...
2024-12-25在职场上,拍脑袋做决策的时代早已过去。数据分析正在成为每个职场人的核心竞争力,不仅能帮你找到问题,还能提供解决方案,提升 ...
2024-12-24Excel是数据分析的重要工具,强大的内置功能使其成为许多分析师的首选。在日常工作中,启用Excel的数据分析工具库能够显著提升数 ...
2024-12-23在当今信息爆炸的时代,数据分析师如同一位现代社会的侦探,肩负着从海量数据中提炼出有价值信息的重任。在这个过程中,掌握一系 ...
2024-12-23在现代的职场中,制作吸引人的PPT已经成为展示信息的重要手段,而其中数据对比的有效呈现尤为关键。为了让数据在幻灯片上不仅准 ...
2024-12-23在信息泛滥的现代社会,数据分析师已成为企业决策过程中不可或缺的角色。他们的任务是从海量数据中提取有价值的洞察,帮助组织制 ...
2024-12-23在数据驱动时代,数据分析已成为各行各业的必需技能。无论是提升个人能力还是推动职业发展,选择一条适合自己的学习路线至关重要 ...
2024-12-23在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19