硅谷观察之大数据篇【下】:硅谷巨头们的大数据玩法
在硅谷观察之大数据篇的【上】篇中,我把硅谷地区大数据生长状况基本梳理了一个相对完整的形状出来。有朋友看了【下】的预告后在微博上给我留言说,听说下篇要介绍一些公司的大数据部门情况,问能不能点名加个 Google 尤其是 Google Maps,因为特别想知道这个世界上最大的搜索引擎以及每天必不可少的出行神器是怎么当一个挖掘机的。
于是,上周我又去了 Google 采访。本篇将一共呈现硅谷四大不同类型的公司如何玩转大数据,其中包括了著名 FLAG 中的三家(Apple 在大数据这块来说表现并不突出)。
本篇内容来自对 Evernote AI 负责人 Zeesha Currimbhoy、LinkedIn 大数据部门资深总监 Simon Zhang、前 Facebook 基础架构工程师 Ashish Thusoo 和 Google 大数据部门一线工程师及 Google Maps 相关负责人的专访。Enjoy~~
Evernote:今年新建AI部门剑指深度学习
Evernote 的全球大会上,CEO Phil Libin 提到,Evernote 的一个重要方向就是“让 Evernote 变成一个强大的大脑”。要实现这个目标,就不得不提他们刚刚整合改组的 Augmented Intelligence 团队(以下简称 AI team)。我在斯坦福约到 AI team 的 manager Zeesha Currimbhoy,在此分析一下从她那里得到的一手资料。
今年早些时候,这个 2 岁的数据处理团队改组为由 Zeesha 带领的 Augmented Intelligence team,总共十人不到,很低调,平日几乎听不到声响。他们究竟在做什么?
与我们常说的 AI(artificial Intelligence)不同,Evernote 的团队名叫做 Augmented Intelligence,通常情况下简称为 IA。
Zeesha 显然是这个团队里元老级的人物:“我是在 2012 年加入 Evernote 的,直接加入到了当时刚刚建立的数据处理团队,这也就是现在 AI team 的雏形。我们最开始的项目都是简单易行的小项目,比如按照你的个人打字方式来优化用户的输入体验。”
传统意义上的 AI 指的是通过大量数据和算法让机器学会分析并作出决定。而这里讲到 IA 则是让电脑进行一定量的运算,而终极目的是以之武装人脑,让人来更好的做决定。这两个概念在具体实施中自然有不少相通之处,但是其出发点却是完全不同的。
这个区别也是 Evernote AI team 的亮点所在。作为一个笔记记录工具,Evernote 与 Google 之类的搜索引擎相比,最大的区别就是它非常的个人化。用户所储存的笔记、网站链接、照片、视频等都是他思维方式和关注点的体现。
Zeesha 小组的初衷便是,通过分析用户储存的笔记来学习其思维方式,然后以相同的模式从第三方数据库(也就是互联网上的各种开源信息)抽取信息推送给用户,从而达到帮助用户思考的过程。从这个意义上讲,Zeesha 版的未来 Evernote 更像是一个大脑的超级外挂,为人脑提供各种强大的可理解的数据支持。
目前整个团队的切入点是很小而专注的。
“我们不仅仅是帮助用户做搜索,更重要的是在正确的时间给用户推送正确的信息。”
实现这个目标的第一步就是给用户自己的笔记分类,找到关联点。今年早些时候,Evernote 已经在 Mac 的英文版上实行了一项叫做“Descriptive Search”的功能。用户可以直接描述想要搜索的条目,Evernote 就会自动返回所有相关信息。
例如,用户可以直接搜索“2012 后在布拉格的所有图片”,或者“所有素食菜单”。不管用户的笔记是怎样分类的,Decriptive Search 都可以搜索到相关的信息并且避免返回过大范围的数据。而这还仅仅是 AI team 长期目标的开始,这个团队将在此基础上开发一系列智能化的产品。
不用说,这样一个新创团队自然也面临这诸多方面的挑战。当下一个比较重要的技术难点就是 Evernote 用户的数据量。虽然 Evernote 的用户量已经达到了一亿,但是由于整个团队的关注点在个人化分析,外加隐私保护等诸多原因,AI team 并没有做跨用户的数据分析。
这样做的结果就是团队需要分析一亿组各不相同的小数据组。比如,假设我只在 Evernote 上面存了 10 个笔记,那 Evernote 也应该能够通过这些少量的数据来分析出有效结果。当然,这些技术的直接结果是用户用 Evernote 越多,得到的个性化用户体验就越好。长期来讲,也是一个可以增加用户黏性的特点。
不过 Zeesha 也坦言:“的确,我们都知道没有大数据就没有所谓的智能分析。但是我们现在所做的正是在这样的前提下来找到新的合适的算法。”她并没有深入去讲目前团队所用的是什么思路,但是考虑到这个领域一时还没有很成功的先例,我们有理由期待在 Zeesha 带领下的 Evernote AI team 在近期做出一些有意思的成果。
Facebook:大数据主要用于外部广告精准投放和内部交流
Facebook 有一个超过 30 人的团队花了近 4 年的时间才建立了 Facebook 的数据处理平台。如今,Facebook 仍需要超过 100 名工程师来支持这个平台的日常运行。可想而知,光是大数据分析的基础设施就已经是一个耗时耗力的项目了。
Facebook 的一大价值就在于其超过 13.5 亿活跃用户每天发布的数据。而其大数据部门经过七八年的摸索,才在 2013 年把部门的 key foundation 定位成广告的精准投放,开始建了一整套自己的数据处理系统和团队。并进行了一系列配套的收购活动,比如买下世界第二大广告平台 Atlas。
据前 Facebook Data Infrastructure Manager Ashish Thusoo 介绍,Facebook 的数据处理平台是一个 self-service, self-managing 的平台,管理着超过 1 Exabyte 的数据。公司内部的各个部门可以直接看到处理过的实时数据,并根据需求进一步分析。
目前公司超过 30% 的团队,包括工程师、Product Managers、Business Analysts 等多个职位人群每个月都一定会使用这项服务。这个数据处理平台的建立让各个不同部门之间可以通过数据容易地交流,明显改变了公司的运行方式。
追溯历史,Facebook 最早有大数据的雏形是在 2005 年,当时是小扎克亲自做的。方法很简单:用 Memcache 和 MySQL 进行数据存储和管理。
很快 bug 就显现了,用户量带来数据的急速增大,使用 Memcache 和 MySQL 对 Facebook 的快速开发生命周期(改变 - 修复 - 发布)带来了阻碍,系统同步不一致的情况经常发生。基于这个问题的解决方案是每秒 100 万读操作和几百万写操作的 TAO(“The Associations and Objects”) 分布式数据库,主要解决特定资源过量访问时服务器挂掉的 bug。
小扎克在 2013 年第一季度战略时提到的最重点就是公司的大数据方向,还特别提出不对盈利做过多需求,而是要求基于大数据来做好以下三个功能:
LinkedIn:大数据如何直接支持销售和变现赚钱
LinkedIn 大数据部门的一个重要功用是分析挖掘网站上巨大的用户和雇主信息,并直接用来支持销售并变现。其最核心团队商业分析团队的总监 Simon Zhang 说,现在国内大家都在讨论云,讨论云计算,讨论大数据,讨论大数据平台,但很少有人讲:我如何用数据产生更多价值,通俗点讲,直接赚到钱。
但这个问题很重要,因为关系到直接收入。四年半前 LinkedIn 内所有用户的简历里抽取出来大概有 300 万公司信息,作为销售人员不可能给每个公司都打电话,所以问题来了:哪家公司应该打?打了后会是个有用的 call?
销售们去问 Simon,他说只有通过数据分析。而这个问题的答案在没有大数据部门之前这些决策都是拍脑袋想象的。
Simon 和当时部门仅有的另外三个同事写出了一个模型后发现:真正买 LinkedIn 服务的人,在决定的那个环节上,其实是一线的产品经理,和用 LinkedIn 在上面猎聘的那些人。但他们做决策后是上面的老板签字,这是一个迷惑项。数据分析结果出来后,他们销售人员改变投放策略,把目标群体放在这些中层的管理人身上,销售转化率瞬间增加了三倍。
那时 LinkedIn 才 500 个人,Simon 一个人支持 200 名销售人员。他当时预测谷歌要花 10 个 Million 美金在猎聘这一块上,销售人员说,Simon,这是不可能的事。
“但是数据就是这么显示的,只有可能多不会少。我意识到,一定要流程化这个步骤。”
今天 LinkedIn 的“猎头”这块业务占据了总收入的 60%。是怎么在四年里发展起来的,他透露当时建造这个模型有以下这么几个步骤:
这是 LinkedIn 大数据部门最早做的事情。
Simon 告诉36氪,公司内部从大数据分析这一个基本项上,可以不断迭代出新产品线 LinkedIn 的三大商业模型是人才解决方案、市场营销解决方案和付费订阅,也是我们传统的三大收入支柱。事实上我们还有一个,也就是第四个商业模型,叫“销售解决方案”,已经在今年 7 月底上线。
这是卖给企业级用户的。回到刚才销售例子,LinkedIn 大数据系统是一个牛逼的模型,只需要改动里面一下关键字,或者一个参数,就可以变成另一个产品。“我们希望能帮到企业级用户,让他们在最快的速度里知道谁会想买你的东西。”
虽然这第四个商业模式目前看来对收入的贡献还不多,只占 1%,但 anyway 有着无限的想象空间,公司内部对这个产品期待很高。“我还不能告诉你它的增长率,但这方向代表的是趋势,Linkedin 的 B2B 是一个不用怀疑的大的趋势。”Simon 说。
Google:一个闭环的大数据生态圈
作为世界上最大的搜索引擎,Google 和大数据的关系又是怎样的呢?感谢微博上留言的朋友,这可确实是一个很有意思的议题。
Google 在大数据方面的基础产品最早是 2003 年发布的第一个大规模商用分布式文件系统 GFS(Google File System),主要由 MapReduce 和 Big Table 这两部分组成。前者是用于大数据并行计算的软件架构,后者则被认为是现代 NOSQL 数据库的鼻祖。
GFS 为大数据的计算实现提供了可能,现在涌现出的各种文件系统和 NOSQL 数据库不可否认的都受到 Google 这些早期项目的影响。
随后 2004 和 2006 年分别发布的 Map Reduce 和 BigTable,奠定了 Google 三大大数据产品基石。这三个产品的发布都是创始人谢尔盖 - 布林和拉里 - 佩奇主导的,这两人都是斯坦福大学的博士,科研的力量渗透到工业界,总是一件很美妙的事。
2011 年,Google 推出了基于 Google 基础架构为客户提供大数据的查询服务和存储服务的 BigQuery,有点类似于 Amazon 的 AWS,虽然目前从市场占有率上看与 AWS 还不在一个数量级,但价格体系更有优势。Google 通过这个迎上了互联网公司拼服务的风潮,让多家第三方服务中集成了 BigQuery 可视化查询工具。抢占了大数据存储和分析的市场。
BigQuery 和 GAE(Google App Engine)等 Google 自有业务服务器构建了一个大数据生态圈,程序创建,数据收集,数据处理和数据分析等形成了闭环。
再来看 Google 的产品线,搜索,广告,地图,图像,音乐,视频这些,都是要靠大数据来支撑,根据不同种类数据建立模型进行优化来提升用户体验提升市场占有率的。
单独说一下 Google maps,这个全球在移动地图市场拥有超过 40% 的市场占有率的产品,也是美国这边的出行神器。它几乎标示了全球有互联网覆盖的每个角落,对建筑物的 3D 视觉处理也早在去年就完成,这个数据处理的工作量可能是目前最大的了,但这也仅限于数据集中的层面。真正的数据分析和挖掘体现在:输入一个地点时,最近被最多用户采用的路径会被最先推荐给用户。
Google 还把 Google+,Panoramio 和其他 Google 云平台的图片进行了标记和处理,将图片内容和地理位置信息地结合在一起,图像识别和社交系统评分处理后,Google 能够把质量比较高的的图片推送给用户,优化了用户看地图时的视觉感受。
大数据为 Google 带来了丰厚的利润,比如在美国你一旦上网就能感觉到时无处不在的 Google 广告(AdSense)。当然,它是一把双刃剑,给站长们带来收入的同时,但如何平衡用户隐私的问题,是大数据处理需要克服的又一个技术难关,或许还需要互联网秩序的进一步完善去支持。
像在【上】中所说,除 Facebook 等几个很领先的公司外,大部分公司要么还没有自行处理数据的能力。最后附上两个例子,想说这边的大公司没有独立大数据部门也是正常的,采取外包合作是普遍现象:
Pinterest:
Pinterest 曾尝试自行通过 Amazon EMR 建立数据处理平台,但是因为其稳定性无法控制和数据量增长过快的原因,最终决定改为使用 Qubole 提供的服务。在 Qubole 这个第三方平台上,Pinterest 有能力处理其 0.7 亿用户每天所产生的海量数据,并且能够完成包括 ETL、搜索、ad hoc query 等不同种类的数据处理方式。尽管 Pinterest 也是一个技术性公司,也有足够优秀的工程师来建立数据处理团队,他们依然选择了 Qubole 这样的专业团队来完成数据处理服务。
Nike:
不仅仅硅谷的互联网公司,众多传统企业也逐渐开始使用大数据相关技术。一个典型的例子就是 Nike。Nike 从 2012 年起与 API 服务公司 Apigee 合作,一方面,他们通过 Apigee 的 API 完善公司内部的数据管理系统,让各个部门的数据进行整合,使得公司内部运行更加顺畅、有效率。另一方面,他们也通过 API 开发 Nike Fuel Band 相关的移动产品。更是在 2014 年开启了 Nike+ FuelLab 项目,开放了相关 API,使得众多的开放者可以利用 Nike 所收集的大量数据开发数据分析产品,成功地连接了 Nike 传统的零售业务,新的科技开发,和大数据价值。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“最近复购率一直在下降,我们的营销力度不小啊,为什么用户还是走了?” “是不是广告投放的用户质量不高?还是我们的产品问题 ...
2025-02-21以下文章来源于数有道 ,作者数据星爷 SQL查询是数据分析工作的基础,也是CDA数据分析师一级的核心考点,人工智能时代,AI能为 ...
2025-02-19在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-18当数据开始说谎:那些年我们交过的学费 你有没有经历过这样的场景?熬了三个通宵做的数据分析报告,在会议上被老板一句"这数据靠 ...
2025-02-17数据分析作为一门跨学科领域,融合了统计学、编程、业务理解和可视化技术。无论是初学者还是有一定经验的从业者,系统化的学习路 ...
2025-02-17挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-17近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的, ...
2025-02-14一秒精通 Deepseek,不用找教程,不用买资料,更不用报一堆垃圾课程,所有这么去做的,都是舍近求远,因为你忽略了 deepseek 的 ...
2025-02-12自学 Python 的关键在于高效规划 + 实践驱动。以下是一份适合零基础快速入门的自学路径,结合资源推荐和实用技巧: 一、快速入 ...
2025-02-12“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩 ...
2025-02-08活动介绍 为了助力大家在数据分析领域不断精进技能,我们特别举办本期打卡活动。在这里,你可以充分利用碎片化时间在线学习,让 ...
2025-02-071、闺女,醒醒,媒人把相亲的带来了。 我。。。。。。。 2、前年春节相亲相了40个, 去年春节相亲50个, 祖宗,今年你想相多少个 ...
2025-02-06在数据科学的广阔领域中,统计分析与数据挖掘占据了重要位置。尽管它们常常被视为有关联的领域,但两者在理论基础、目标、方法及 ...
2025-02-05在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-02-05当我们只有非常少量的已标记数据,同时有大量未标记数据点时,可以使用半监督学习算法来处理。在sklearn中,基于图算法的半监督 ...
2025-02-05考虑一种棘手的情况:训练数据中大部分样本没有标签。此时,我们可以考虑使用半监督学习方法来处理。半监督学习能够利用这些额 ...
2025-02-04一、数学函数 1、取整 =INT(数字) 2、求余数 =MOD(除数,被除数) 3、四舍五入 =ROUND(数字,保留小数位数) 4、取绝对值 =AB ...
2025-02-03作者:CDA持证人 余治国 一般各平台出薪资报告,都会哀嚎遍野。举个例子,去年某招聘平台发布《中国女性职场现状调查报告》, ...
2025-02-02真正的数据分析大神是什么样的呢?有人认为他们能轻松驾驭各种分析工具,能够从海量数据中找到潜在关联,或者一眼识别报告中的数 ...
2025-02-01现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31