李德毅:大数据突破点在于聚类
2015年4月9日,第三届中国电子信息博览会在深圳召开。工业和信息化部电子信息司司长刁石京主持开展了新一代信息技术产业发展高峰论坛。中国工程院院士李德毅发表了主题为“大数据认知”的演讲,对大数据的发展前景做出了展望。
人类社会文明已经进入到了数据密集型的新时代,大数据已经成为重要的资产。在李德毅看来,大数据本身既不是科学,也不是技术,它反映的是网络时代的一种客观存在。而数据数量巨大,价值密度低,实时在线,多源异构,给人们的认知造成了很大的困扰。
李德毅认为, 人类的认知科学要想有所突破,首先就要在大数据聚类上去的突破,聚类是挖掘大数据资产价值的第一步。这种聚类是跨学科、跨领域、跨媒体的,并且已经成为许多行业的核心竞争力。人脑的认知能力不能够全部、完整、统一地形式化,但特定的情境下的认知能力是否可以先局部地形式化。
智能机器人是物联网不可或缺的端设备,一直以来都是人类关注的重点。李德毅认为,机器人既使用大数据也产生大数据,既是大数据的产物,也是大数据的推动者,机器人是大数据的认知的典型代表。人脑的认知能力不能够全部、完整、统一地形式化,但特定的情境下的认知能力是否可以先局部地形式化,而机器人就是人类的思维移植。
以下为李德毅演讲全文:
尊敬的怀部长,各位来宾,女士们,先生们,我汇报的主题是大数据认知,云计算、大数据、认知,大家知道认知是现在全球都感兴趣的话题。所谓认知,就是怎么样获取知识和技能的能力,所以我的第一个小标题是讲一下认知。
大数据标志着一个新时代的到来,这个时代的特征不只是追求丰富的物质资源,也不只是无所不在的互联网带来的方便的多样化信息服务,同时还包含区别于物质的数据资源的价值发现和价值转换,以及由大数据带来的精神和文化方面的崭新现象。
大数据来源于人类的测量、记录和分析世界的渴望和无尽的追求。随着信息技术,尤其是传感器、通信、计算机和互联网技术的迅猛发展和广泛应用,人类获取数据的手段越来越多,速度大大加快、成本急剧降低,层次和尺度更为精细,揭示自然现象和社会现象更加深刻,人联网和物联网又使得人人物物都成为数据源,这样一来,大数据成为网络时代人类社会的重要资产。
我想说一个观点,大数据本身既不是科学,也不是技术,我个人认为,它反映的是网络时代的一种客观存在,各行各业的大数据,规模从TB到PB到EB到ZB,都是以三个数量级的阶梯迅速增长,是用传统工具难以认知的,具有更大挑战的数据。
数据量巨大,价值密度低,实时在线,多源异构,怎么办?举个例子吧!聚类,物以类聚,人以群分,这是人类几千年来认识世界和社会的基本能力,是从大数据中发现价值必须面对的一个普遍性、基础性问题,是认知科学作为学科的学科,要解决的首要问题。无论是政治、经济、文学、历史、社会、文化、还是数理、化工、医农、交通、地理、各行各业的大数据或宏观或微观的任何价值发现。
2008年XX专刊登了一篇文章,人们对小标题关注不够,这个小标题讲的PB时代的科学怎么做。大数据分析和挖掘的首要任务是聚类,这种聚类是跨学科、跨领域、跨媒体的。
聚类的挑战性很多,有人是并行计算等等,我不细讲了。我想说的是大数据聚类表现形态。
我想用几个例子来讲一讲,人类走过了几千年的实验科学、几百年的理论科学,保险是一个很传统的行业,基于概念评估的生意,保险公司对车险客户是这样聚类的:A类连续两年没有出车祸的,B类,最近一年没有出车祸的,C类过去一年出了一次车祸的,D类过去一年出了两此及以上车祸的。我从机场到深圳来,你坐飞机从北京到深圳,保险公司给你付了,我一了解,这个保险是20块钱,这个保险公司买了你三个大数据,身份证,还有你的手机号,各位企业、各位领导,各位老百姓,你们想一想。
物联网时代,当汽车成为轮式机器人,成为大数据发生器以后,就是一个大数据发生体,每一次驾驶,每一次维修,每一次行驶,甚至每一次刹车,都会记录在岸,利用大数据聚类,保险公司可对一个车况好、驾驶习惯好、常走线路事故率低,不勤开车的特定客户,给予更大的优惠,而对风险太高的客户报高价甚至拒绝,例如出租车司机跑的比老百姓多得多,总之能够给出包括保险费支付方式在内的个性化解决方案,这就颠覆了保险公司的传统商业模式。这就是大数据聚类成为保险公司的核心竞争力,我扩张一下,就是大数据聚类成为很多行业的核心竞争力。
非大数据时代,做一个人脸的识别,我们可以提取它十个特征,第二类先结构化存起来,你想一想,如果十个特征都一样的话,两个人是不是同一个人呢?当然,这也是不可能的,但是我们再想一想,人类智能来看,它忽略了什么呢?我认为它忽略了太多,这种人脸识别仅仅是几何结构的聚类,落入集合学框架,忽略了聚类的不确定性,忽略了聚类的多样性等等。
再举个例子,大数据写诗,人们熟读众多诗词,记住了针对各种意境的大量字串。例如说李白一生写诗1010首,把他所有诗句进行机械切割。李白给毛主席诞辰100周年写一首诗,就是这样。
大数据对形式化方法的挑战是非常严峻的,在数据密集型的网络时代,任何传统学科,或者传统的行业,它的公理、原理和定理组成的语境,遇到互联网+的挑战之后,这样一来,传统的学科行业,或者是交叉学科,成为一个大数据、小模型、小定律、交叉学科的时代,模型和程序要围绕数据转。
创新,表示在创造一个新的语境,新的坐标系,在这个坐标系下研究大数据,在互联网情况下,如何创造你新的坐标系,新的语境,否则难以有新的发现。
实践中的研究,由下而上要深入,数据要胜过程序,价值要胜过知识,关联要胜过因果,更多要关注有意义的小众,把这些小众累积起来才成为大众。
通过大数据聚类即时发现价值,要充分认识大数据中的不确定性和价值的隐蔽性。
机器人如何认知是我讲的第二个问题,这七个字,可以有两种划分,一种是机器人如何认知,你要把这个弄清楚,我觉得实际上是在弄这个,机器人在想,人如何认知,智能机器人是集新材料、新工艺、新能源、机械、电子、移动通信、全球定位导航、移动互联网、云计算、大数据、自动化、人工智能、认知科学、乃至人文艺术等多个学科、多种技术于一身的人造精灵,是人联网、物联网不可或缺的端设备,是人类社会走向智慧生活的重要伴侣。
机器人既是使用大数据也产生大数据,既是大数据的产物,也是大数据的推动者,机器人是大数据的认知的典型代表,机器人时代真的来了,我们希望我们以后的黄牛退休、铁牛耕地,这个铁牛就是机器人,农民进城,机器人耕地,医疗与健康机器人,服务机器人更是上上下下,当然还有太空机器人等。
我先讲一下服务机器人,高考机器人,就是由知识的碎片化,大数据来认知,就说明我们的教育不能光是填知识,我们现在做一个报告,我们可以用机器人来撰稿,机器人导航,机器人手术等。
如果语言、文本、歌曲、剧本,都可以用虚拟机器人,训练他的形象、情感、动作、语音、语调、风格,利用大数据,发出新的歌声。
机器人革命是世界性的、时代性的,机器人换人首先不是换掉理发师之类的劳动者,而可能是产业工人、文秘人员、医生、服务员、甚至士兵,他们将升级转型成为机器人的创造者和使用者,成为懂得集成、维修、管理机器人的专业人才。跨界渗透和跨界创新诞生的智能制造也是我国抓住历史机遇的又一次崛起。
我想做一个可穿戴设备的案例,如果你能做一个人和人的衣服,动力驱动,研制一个可穿戴的机械,帮助负重、助行、转体、条约的话,不仅可以让机器人站起来走路,还可以让特种兵成为飞人、超人。
这就是这样一些机器人,可穿戴的外部增强的机器人,这是我想做的家庭服务机器人,今天企业家很多,我在这投一个标,我想做这边这一个机器人,谁能做下面的轮子,从餐厅到卧室,从卧室到书房,希望大家有兴趣能够谈一谈。
机器人还将进一步刮起穿戴风,苹果做了手表,这个手表里面有一个检查老年痴呆的,苹果发表了5个APP商家,启动全新医疗应用,我们想一想,如果有一天让手机或者手表成为医疗诊断的工具,成为用于慢性管理的医患视频互动平台,成为医疗互联网个人健康与医疗的数据发生器,成为远程诊疗的开始,成为某种流行病的社会调查,成为病友社交网络,甚至会颠覆传统看病模式,颠覆传统医学研究。
生物机器人遐想,我们人的想象中,生命的多种形象,如果器官移植越来越发达,那么移花接木就屡见不鲜。将来,谁是谁搞不清楚了,如果这个人的脸换到另一个人的身上去,怎么界定?从定制治疗到定制婴儿,改造人类胚胎DNA,会不会避免遗传性疾病?如果将人的思维移植到机器人,那么思想是不是不朽的呢?
我现在想做一个东西,我想做一个机器驾驶脑。在脑科学取得重大突破前,能不能做得出来?人脑很复杂,我跟一个美国科学院士,是个华人,在科技部开的咨询会上,他告诉我一句话,让我很吃惊,他回答我的问题,脑里要花一个脑袋功能结构图,100年都画不出,他说你看一看生命科学的书,那叫人脑的组织结构图,全球已经发现500多种脑部疾病。
科学界正把脑科学和认知科学作为当前的重大研究领域,我们热切期待生物脑的出现。
难道认知科学就是研究生物脑的自然属性吗?怎样把社会属性研究进去呢?我提出来要研究文字、文明和传承,我们各种高端生物都会有语言、文字的,因为有了文字,才有了文明。要研究脑认知的后天属性,研究脑发育、可塑性与自然环境的关系,认知也是后天学习和积累的结果,是与社会环境、社会实践、群体交互等密切相关的,要建立人脑认知的成长机制:如何创建神经元之间新的连接和新的认知。
我们想一下,人的智能,除了记忆之外,在学习和思维上,到底有什么能耐?客观地说,或者概括地说,一个是逻辑思维,一个是形象思维,形象思维最主要的是两个,一个是类比,一个是联想,主要解决的是图象。
因此我的技术观点是如果人脑的认知能力不能够全部、完整、统一地形式化、但特定的情境下的认知能力是否可以先局部地形式化,例如算术运算、简单游戏、博弈、定点开车等。
就在此时此刻,美国的一个汽车公司,真的从洛杉矶往纽约开,他要开5000多公里。我们有很多摄像头,还有汽车本身的运动参数,再一个就是我们的导航地图,还有雷达传感器,我们利用一次规划,和驾驶地图,形成一个初位化。我们认为,我们的驾驶脑主要涵盖了人脑关于驾驶行为的主要功能,长期记忆、短期记忆,还有瞬间记忆,就是感觉记忆,从感知到认知,到行动。我今天在博览会上找了好几个厂家,希望跟他们合作,X1芯片,我们能不能做出我们自己的XPA,让我们的汽车工业在智能时代到来中不错失又一次机遇。谢谢大家!
中国脑计划马上要启动了,我个人认为是要将三项研究同步进行,因为大数据三化来认识脑袋,保护脑,模拟脑,谢谢!
数据分析咨询请扫描二维码
数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21数据分析作为一个备受追捧的职业领域,吸引着越来越多的女性加入其中。对于女生而言,在选择成为一名数据分析师时,行业选择至关 ...
2024-11-21大数据技术专业主要学习计算机科学、数学、统计学和信息技术等领域的基础理论和技能,旨在培养具备大数据处理、分析和应用能力的 ...
2024-11-21《Python数据分析极简入门》 第2节 3 Pandas数据查看 这里我们创建一个DataFrame命名为df: importnumpyasnpi ...
2024-11-21越老越吃香的行业主要集中在需要长时间经验积累和专业知识的领域。这些行业通常知识更新换代较慢,因此随着年龄的增长,从业者能 ...
2024-11-20数据导入 使用pandas库的read_csv()函数读取CSV文件或使用read_excel()函数读取Excel文件。 支持处理不同格式数据,可指定分隔 ...
2024-11-20大数据与会计专业是一门结合了大数据分析技术和会计财务理论知识的新型复合型学科,旨在培养能够适应现代会计业务新特征的高层次 ...
2024-11-20要成为一名数据分析师,需要掌握一系列硬技能和软技能。以下是成为数据分析师所需的关键技能: 统计学基础 理解基本的统计概念 ...
2024-11-20是的,Python可以用于数据分析。Python在数据分析领域非常流行,因为它拥有丰富的库和工具,能够高效地处理从数据清洗到可视化的 ...
2024-11-20在这个数据驱动的时代,数据分析师的角色变得愈发不可或缺。他们承担着帮助企业从数据中提取有价值信息的责任,而这些信息可以大 ...
2024-11-20数据分析作为现代信息时代的支柱之一,已经成为各行业不可或缺的工具。无论是在商业、科研还是日常决策中,数据分析都扮演着至关 ...
2024-11-20数字化转型已成为当今商业世界的热点话题。它不仅代表着技术的提升,还涉及企业业务流程、组织结构和文化的深层次变革。理解数字 ...
2024-11-20在现代社会的快速变迁中,选择一个具有长期增长潜力的行业显得至关重要。了解未来发展前景好的行业不仅能帮助我们进行职业选择, ...
2024-11-20统计学专业的就业方向和前景非常广泛且充满机遇。随着大数据、人工智能等技术的快速发展,统计学的重要性进一步凸显,相关人才的 ...
2024-11-20