一个新时代
起源
分布式机器学习是随着“大数据”概念兴起的。在有大数据之前,有很多研究工作为了让机器学习算法更快,而利多多个处理器。这类工作通常称为“并行计算”或者“并行机器学习”,其核心目标是把计算任务拆解成多个小的任务,分配到多个处理器上做计算。
分布式计算或者分布式机器学习除了要把计算任务分布到多个处理器上,更重要的是把数据(包括训练数据以及中间结果)分布开来。因为在大数据时代,一台机器的硬盘往往装不下全部数据,或者即使装下了,也会受限于机器的I/O通道的带宽,以至于访问速度很慢。为了更大的存储容量、吞吐量以及容错能力,我们都希望把数据分布在多台计算机上。
那么什么样的数据大到一台机器甚至几百台机器的硬盘都装不下呢?要知道,现在很多服务器的硬盘空间都是数TB的了!其实这样的大数据有很多。比如搜索引擎要爬下很多很多的网页,对其内容做分析并建立索引。有多少网页呢?这个数字很难估计,因为这是随时间变化的。
在Web 2.0出现之前,全球网页数量的增长相对稳定,因为网页都是专业人员编辑的。而由于各种Web 2.0工具帮助用户建立自己的网页,比如博客、甚至微博,所以网页数量呈指数速度递增。
另一种典型的大数据是电商网站上的用户行为数据。比如在亚马逊或者淘宝上,每天都很多用户看到了很多推荐的商品,并且点击了其中一些。这些用户点击推荐商品的行为会被亚马逊和淘宝的服务器记录下来,作为分布式机器学习系统的输入。输出是一个数学模型,可以预测一个用户喜欢看到哪些商品,从而在下一次展示推荐商品的时候,多展示那些用户喜欢的。
类似的,在互联网广告系统中,展示给用户的广告、以及用户点击的广告也都会被记录下来,作为机器学习系统的数据,训练点击率预估模型。在下一次展示推荐商品时,这些模型会被用来预估每个商品如果被展示之后,有多大的概率被用户点击。其中预估点击率高的商品,往往展示在预估点击率低的商品之前,从而赢得实际上比较高的点击率。
从上面的例子我们可以看出来,这些大数据之所以大,是因为它们记录的是数十亿互联网用户的行为。而人们每天都会产生行为,以至于百度、阿里、腾讯、奇虎、搜狗这样的公司的互联网服务每天收集到很多很多块硬盘才能装下的数据。而且这些数据随时间增加,永无止境。虽然对“大数据”的具体定义见人见智,但是互联网用户的行为数据,毫无疑问地被公认为大数据了。
价值
机器学习的应用由来已久。大家可能还记得十几年前IBM推出的语音识别和输入系统ViaVoice。这个系统使用的声学模型和语言模型是用人工收集整理和标注的数据训练的。当年因为IBM财大气粗,收集和整理了很多数据,所以ViaVoice的识别准确率在同类产品中遥遥领先。但是,ViaVoice很难保证能识别各种口音的人。所以IBM的工程师们设计了一个自动适应的功能——通过让用户标注没能正确识别的语音对应的文本,ViaVoice可以针对主任的口音做特别的优化。
今天,大家可以通过互联网使用Google的语音识别系统。我们会发现,不管使用者口音如何,Google的语音识别系统几乎都能准确识别,以至于几乎不再需要“适应主人的口音”。而且Google的系统支持的语言种类也更多。这其中的奥妙就在于“大数据”。
在Google发布语音识别引擎之前,先有语音搜索服务。在语音搜索服务之前,有一个打电话查询的服务。实际上,正式这个电话服务收集了很多用户的语音输入。这部分数据经过人工标注,称为了训练语言模型和声学模型的第一批数据。随后发布的语音搜索收集了世界各地更多互联网用户的声音,加上半自动标注系统的引入,训练数据大大丰富了。训练数据越多,能覆盖的口音和语种越多,机器学习得到的模型的识别准确率也就越高。
以至于当Google发布语音识别引擎之初,识别率就远高于依赖人工标注训练数据的IBM ViaVoice。随着语音识别服务被很多手机应用和桌面应用使用,它能采集更多用户的语音输入,模型的准确性会不断得到提高。
从上面例子我们可以看出,因为互联网服务收集的数据是万万千千用户的行为的体现,而人类行为是人类智能的结果。
所以如果我们能设计分布式机器学习系统,能从大数据中归纳规律,我们实际上就在归纳整个人类的知识库。这个听起来很神奇,实际上在上面的例子里,Google已经做到了。在这一系列的最后一节里,我们会介绍我们开发的一个语义学习系统,它从上千亿条文本数据中,归纳汉语中上百万的“语义”。随后,只要用户输入任何一段文本,这个系统可以利用训练好的模型在一毫秒之内,理解文本中表达的“语义”。这个理解过程确保消除文本中的歧义,从而让搜索引擎、广告系统、推荐系统等应用更好地理解用户需求。
简言之,互联网使得人类第一次有机会收集全人类的行为数据。从而为机器学习这一持续了数十年的研究方向提供了全新的机会——分布式机器学习——从互联网数据中归纳这个人类的知识,从而让机器比任何一个个人都要“聪明”。
作者:火光摇曳
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
持证人简介:贺渲雯 ,CDA 数据分析师一级持证人,互联网行业数据分析师 今天我将为大家带来一个关于用户私域用户质量数据分析 ...
2025-04-18一、CDA持证人介绍 在数字化浪潮席卷商业领域的当下,数据分析已成为企业发展的关键驱动力。为助力大家深入了解数据分析在电商行 ...
2025-04-17CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-02最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27