百度大数据实验室范伟:如何打造大数据生态圈
在日前举行的百度世界大会上,百度喊出了近来互联网界颇为流行的“生态”口号。百度的“生态”与视频、手机、电视没有关系,它要建立的是连接3600行的大数据生态圈。
“百度是天然的大数据公司,覆盖全网6亿网民,每天响应60亿次搜索请求,150亿次定位请求。”百度大数据实验室副主任范伟表示。然而,然而如何在海量信息中准确甄别信息、计算相关信息、快速反馈信息,仍是技术研发人员面临的严峻考验。
大数据问诊
百度日前发布了慧医疗、慧城市、慧创业三款应用。能否以“慧医疗”为例,为我们介绍下,百度采用了哪些技术?大数据又是如何应用的呢?
慧医疗其中的一项应用是深度医疗对话机器人,通过语音输入或在应用界面输入文字,用户可以和机器人进行对话。你输入自己的疾病症状,她可以对你的疾病进行分析,并根据你的需求提供建议或帮助。重要的是,当用户意图和信息不明确时,深度对话机器人会智能的揣摩用户意图,引导用户。在充分理解,用户需求后,提供用户需要的信息。
机器人对用户问题的回答都是以大数据为基础的。网上有两类医疗信息,一类是病人之间的信息共享,一类是医生之间的信息交流。专业的医疗信息虽然能在网上和医书里获取,但内容十分有限。比如网上关于心脏病、糖尿病的信息很多,但是关于心脏搭桥的信息就很少。这些信息鱼龙混杂,重要的是进行信息甄别,对信息的可信度进行分析。可信度分析也是通过数据计算出来,比如有多少人参考了这个答案,这个人回答过多少问题,他(她)回答问题的所用的词汇分析等等。核实后的信息会整合成一个类似的知识库,每条信息都有个0-1间的可信度。用户提出的问题,都用库里的信息作为基础回答。
提问和回答之间如何做到信息匹配呢?
用户提问的意图也有很多种,我们系统里大概有数十种用户意图的分类,比如说你想知道是什么病,还是想知道吃什么药,自己怎样调养。但是有时候用户提问的意图并不明确,例如“我今天不舒服”。这样我们的系统会和用户进一步揣摩、明确意图,例如问他(她)是想获得治疗信息、疾病知识,还是医生信息,再提供服务。我们的意图模型,利用基于深度学习的建模,精准率达到了90%多。
目前市场上移动医疗的应用程序也很多。慧医疗所应用的技术处于什么水平呢?
通过大数据和人工智能等技术实现自然语言问诊,问诊答复的精准率超过了70%,据我了解我们是业内第一家做到这个准确率的。我们机器人会确认用户意图,当意图不明确时她会揣摩和追问,以保证答案的是用户需要知道的信息。
百度大数据实验室目前的整体情况是怎样的?
大数据实验室成立于去年4月,关注大规模机器学习算法和应用、大数据预测分析和垂直行业应用探索、带结构大数据的算法研究、智能系统的研究等方向。实验室分为北京和美国硅谷两个分部。实验室采用承诺承包制,你选择的项目你负责。我负责关键架构,关键技术攻关和方向性的问题,路不能走错。我们的大规模机器学习算法、深度学习技术、人机对话技术在业界都处于领先水平。
方兴未艾
国内大数据产业方兴未艾,国务院不久前也印发了《大数据发展行动纲要》。你如何看国内大数据产业的发展?
从创业者角度讲,你要了解用户需求,解决用户的痛点,才能能带动产业、解决就业,还能把很多技术出口到国外去。我们实验室的大规模机器学习算法、搜索技术、图像识别、深度学习等都是世界级水平的。
美国在很多方面迭代比较慢,因为它是已经发展的比较成熟了,欧洲公司也比较慢。但我觉得百度迭代非常非常快。现在很多新概念都是在中国、在以色列等地区出现的。这是思维比较活跃的国家。
国内大数据产业很火,有些是真的,有些是忽悠。要看大数据技术应用之后能否实现对现有模式的改变,能改变多少,这些改变是否有帮助。
你理想中未来的数据生活是怎样的?
手机真正成为你的生活秘书。比如今天我加班晚了,通过定位信息等和手环的健康信息检测,手机能知道我没吃饭,会主动推送说,“要不要点个外卖?”我去葡萄牙出差,手机知道我平时喜欢跑步,会推送给我当地最适合跑步的地方。这种智能化服务会让用户觉得生活质量都提高了。你能专注于你喜欢的事情,这是我期待看到的。
你描述的场景应该如何去努力实现呢?
定位信息、健康数据检测、地图位置信息等,这些在技术上都不难。但这些靠一家公司无法完成,需要多个企业、部门进行合作,打破一些壁垒,包括政策性的壁垒和行业间的壁垒,这样1+1的效果就大于2。我希望我们的技术不仅仅是服务于某家公司,而是服务360行,带动整个社会进步。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
2025年刚开启,知乎上就出现了一个热帖: 2024年突然出现的经济下行,使各行各业都感觉到压力山大。有人说,大环境越来越不好了 ...
2025-01-27在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-01-26数据指标体系 “数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而 ...
2025-01-26在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-25俗话说的好“文不如表,表不如图”,图的信息传达效率很高,是数据汇报、数据展示的重要手段。好的数据展示不仅需要有图,还要选 ...
2025-01-24数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪70 ...
2025-01-24又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-23“用户旅程分析”概念 用户旅程图又叫做用户体验地图,它是用于描述用户在与产品或服务互动的过程中所经历的各个阶段、触点和情 ...
2025-01-22在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-22在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06在现代企业中,数据分析师扮演着至关重要的角色。每天都有大量数据涌入,从社交媒体到交易平台,数据以空前的速度和规模生成。面 ...
2025-01-06在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03