硅谷观察之大数据篇【下】:硅谷巨头们的大数据玩法
在硅谷观察之大数据篇的【上】篇中,我把硅谷地区大数据生长状况基本梳理了一个相对完整的形状出来。有朋友看了【下】的预告后在微博上给我留言说,听说下篇要介绍一些公司的大数据部门情况,问能不能点名加个 Google 尤其是 Google Maps,因为特别想知道这个世界上最大的搜索引擎以及每天必不可少的出行神器是怎么当一个挖掘机的。
于是,上周我又去了 Google 采访。本篇将一共呈现硅谷四大不同类型的公司如何玩转大数据,其中包括了著名 FLAG 中的三家(Apple 在大数据这块来说表现并不突出)。
本篇内容来自对 Evernote AI 负责人 Zeesha Currimbhoy、LinkedIn 大数据部门资深总监 Simon Zhang、前 Facebook 基础架构工程师 Ashish Thusoo 和 Google 大数据部门一线工程师及 Google Maps 相关负责人的专访。Enjoy~~
Evernote:今年新建AI部门剑指深度学习
Evernote 的全球大会上,CEO Phil Libin 提到,Evernote 的一个重要方向就是“让 Evernote 变成一个强大的大脑”。要实现这个目标,就不得不提他们刚刚整合改组的 Augmented Intelligence 团队(以下简称 AI team)。我在斯坦福约到 AI team 的 manager Zeesha Currimbhoy,在此分析一下从她那里得到的一手资料。
今年早些时候,这个 2 岁的数据处理团队改组为由 Zeesha 带领的 Augmented Intelligence team,总共十人不到,很低调,平日几乎听不到声响。他们究竟在做什么?
与我们常说的 AI(artificial Intelligence)不同,Evernote 的团队名叫做 Augmented Intelligence,通常情况下简称为 IA。
Zeesha 显然是这个团队里元老级的人物:“我是在 2012 年加入 Evernote 的,直接加入到了当时刚刚建立的数据处理团队,这也就是现在 AI team 的雏形。我们最开始的项目都是简单易行的小项目,比如按照你的个人打字方式来优化用户的输入体验。”
传统意义上的 AI 指的是通过大量数据和算法让机器学会分析并作出决定。而这里讲到 IA 则是让电脑进行一定量的运算,而终极目的是以之武装人脑,让人来更好的做决定。这两个概念在具体实施中自然有不少相通之处,但是其出发点却是完全不同的。
这个区别也是 Evernote AI team 的亮点所在。作为一个笔记记录工具,Evernote 与 Google 之类的搜索引擎相比,最大的区别就是它非常的个人化。用户所储存的笔记、网站链接、照片、视频等都是他思维方式和关注点的体现。
Zeesha 小组的初衷便是,通过分析用户储存的笔记来学习其思维方式,然后以相同的模式从第三方数据库(也就是互联网上的各种开源信息)抽取信息推送给用户,从而达到帮助用户思考的过程。从这个意义上讲,Zeesha 版的未来 Evernote 更像是一个大脑的超级外挂,为人脑提供各种强大的可理解的数据支持。
目前整个团队的切入点是很小而专注的。
“我们不仅仅是帮助用户做搜索,更重要的是在正确的时间给用户推送正确的信息。”
实现这个目标的第一步就是给用户自己的笔记分类,找到关联点。今年早些时候,Evernote 已经在 Mac 的英文版上实行了一项叫做“Descriptive Search”的功能。用户可以直接描述想要搜索的条目,Evernote 就会自动返回所有相关信息。
例如,用户可以直接搜索“2012 后在布拉格的所有图片”,或者“所有素食菜单”。不管用户的笔记是怎样分类的,Decriptive Search 都可以搜索到相关的信息并且避免返回过大范围的数据。而这还仅仅是 AI team 长期目标的开始,这个团队将在此基础上开发一系列智能化的产品。
不用说,这样一个新创团队自然也面临这诸多方面的挑战。当下一个比较重要的技术难点就是 Evernote 用户的数据量。虽然 Evernote 的用户量已经达到了一亿,但是由于整个团队的关注点在个人化分析,外加隐私保护等诸多原因,AI team 并没有做跨用户的数据分析。
这样做的结果就是团队需要分析一亿组各不相同的小数据组。比如,假设我只在 Evernote 上面存了 10 个笔记,那 Evernote 也应该能够通过这些少量的数据来分析出有效结果。当然,这些技术的直接结果是用户用 Evernote 越多,得到的个性化用户体验就越好。长期来讲,也是一个可以增加用户黏性的特点。
不过 Zeesha 也坦言:“的确,我们都知道没有大数据就没有所谓的智能分析。但是我们现在所做的正是在这样的前提下来找到新的合适的算法。”她并没有深入去讲目前团队所用的是什么思路,但是考虑到这个领域一时还没有很成功的先例,我们有理由期待在 Zeesha 带领下的 Evernote AI team 在近期做出一些有意思的成果。
Facebook:大数据主要用于外部广告精准投放和内部交流
Facebook 有一个超过 30 人的团队花了近 4 年的时间才建立了 Facebook 的数据处理平台。如今,Facebook 仍需要超过 100 名工程师来支持这个平台的日常运行。可想而知,光是大数据分析的基础设施就已经是一个耗时耗力的项目了。
Facebook 的一大价值就在于其超过 13.5 亿活跃用户每天发布的数据。而其大数据部门经过七八年的摸索,才在 2013 年把部门的 key foundation 定位成广告的精准投放,开始建了一整套自己的数据处理系统和团队。并进行了一系列配套的收购活动,比如买下世界第二大广告平台 Atlas。
据前 Facebook Data Infrastructure Manager Ashish Thusoo 介绍,Facebook 的数据处理平台是一个 self-service, self-managing 的平台,管理着超过 1 Exabyte 的数据。公司内部的各个部门可以直接看到处理过的实时数据,并根据需求进一步分析。
目前公司超过 30% 的团队,包括工程师、Product Managers、Business Analysts 等多个职位人群每个月都一定会使用这项服务。这个数据处理平台的建立让各个不同部门之间可以通过数据容易地交流,明显改变了公司的运行方式。
追溯历史,Facebook 最早有大数据的雏形是在 2005 年,当时是小扎克亲自做的。方法很简单:用 Memcache 和 MySQL 进行数据存储和管理。
很快 bug 就显现了,用户量带来数据的急速增大,使用 Memcache 和 MySQL 对 Facebook 的快速开发生命周期(改变 - 修复 - 发布)带来了阻碍,系统同步不一致的情况经常发生。基于这个问题的解决方案是每秒 100 万读操作和几百万写操作的 TAO(“The Associations and Objects”) 分布式数据库,主要解决特定资源过量访问时服务器挂掉的 bug。
小扎克在 2013 年第一季度战略时提到的最重点就是公司的大数据方向,还特别提出不对盈利做过多需求,而是要求基于大数据来做好以下三个功能:
LinkedIn:大数据如何直接支持销售和变现赚钱
LinkedIn 大数据部门的一个重要功用是分析挖掘网站上巨大的用户和雇主信息,并直接用来支持销售并变现。其最核心团队商业分析团队的总监 Simon Zhang 说,现在国内大家都在讨论云,讨论云计算,讨论大数据,讨论大数据平台,但很少有人讲:我如何用数据产生更多价值,通俗点讲,直接赚到钱。
但这个问题很重要,因为关系到直接收入。四年半前 LinkedIn 内所有用户的简历里抽取出来大概有 300 万公司信息,作为销售人员不可能给每个公司都打电话,所以问题来了:哪家公司应该打?打了后会是个有用的 call?
销售们去问 Simon,他说只有通过数据分析。而这个问题的答案在没有大数据部门之前这些决策都是拍脑袋想象的。
Simon 和当时部门仅有的另外三个同事写出了一个模型后发现:真正买 LinkedIn 服务的人,在决定的那个环节上,其实是一线的产品经理,和用 LinkedIn 在上面猎聘的那些人。但他们做决策后是上面的老板签字,这是一个迷惑项。数据分析结果出来后,他们销售人员改变投放策略,把目标群体放在这些中层的管理人身上,销售转化率瞬间增加了三倍。
那时 LinkedIn 才 500 个人,Simon 一个人支持 200 名销售人员。他当时预测谷歌要花 10 个 Million 美金在猎聘这一块上,销售人员说,Simon,这是不可能的事。
“但是数据就是这么显示的,只有可能多不会少。我意识到,一定要流程化这个步骤。”
今天 LinkedIn 的“猎头”这块业务占据了总收入的 60%。是怎么在四年里发展起来的,他透露当时建造这个模型有以下这么几个步骤:
这是 LinkedIn 大数据部门最早做的事情。
Simon 告诉36氪,公司内部从大数据分析这一个基本项上,可以不断迭代出新产品线 LinkedIn 的三大商业模型是人才解决方案、市场营销解决方案和付费订阅,也是我们传统的三大收入支柱。事实上我们还有一个,也就是第四个商业模型,叫“销售解决方案”,已经在今年 7 月底上线。
这是卖给企业级用户的。回到刚才销售例子,LinkedIn 大数据系统是一个牛逼的模型,只需要改动里面一下关键字,或者一个参数,就可以变成另一个产品。“我们希望能帮到企业级用户,让他们在最快的速度里知道谁会想买你的东西。”
虽然这第四个商业模式目前看来对收入的贡献还不多,只占 1%,但 anyway 有着无限的想象空间,公司内部对这个产品期待很高。“我还不能告诉你它的增长率,但这方向代表的是趋势,Linkedin 的 B2B 是一个不用怀疑的大的趋势。”Simon 说。
Google:一个闭环的大数据生态圈
作为世界上最大的搜索引擎,Google 和大数据的关系又是怎样的呢?感谢微博上留言的朋友,这可确实是一个很有意思的议题。
Google 在大数据方面的基础产品最早是 2003 年发布的第一个大规模商用分布式文件系统 GFS(Google File System),主要由 MapReduce 和 Big Table 这两部分组成。前者是用于大数据并行计算的软件架构,后者则被认为是现代 NOSQL 数据库的鼻祖。
GFS 为大数据的计算实现提供了可能,现在涌现出的各种文件系统和 NOSQL 数据库不可否认的都受到 Google 这些早期项目的影响。
随后 2004 和 2006 年分别发布的 Map Reduce 和 BigTable,奠定了 Google 三大大数据产品基石。这三个产品的发布都是创始人谢尔盖 - 布林和拉里 - 佩奇主导的,这两人都是斯坦福大学的博士,科研的力量渗透到工业界,总是一件很美妙的事。
2011 年,Google 推出了基于 Google 基础架构为客户提供大数据的查询服务和存储服务的 BigQuery,有点类似于 Amazon 的 AWS,虽然目前从市场占有率上看与 AWS 还不在一个数量级,但价格体系更有优势。Google 通过这个迎上了互联网公司拼服务的风潮,让多家第三方服务中集成了 BigQuery 可视化查询工具。抢占了大数据存储和分析的市场。
BigQuery 和 GAE(Google App Engine)等 Google 自有业务服务器构建了一个大数据生态圈,程序创建,数据收集,数据处理和数据分析等形成了闭环。
再来看 Google 的产品线,搜索,广告,地图,图像,音乐,视频这些,都是要靠大数据来支撑,根据不同种类数据建立模型进行优化来提升用户体验提升市场占有率的。
单独说一下 Google maps,这个全球在移动地图市场拥有超过 40% 的市场占有率的产品,也是美国这边的出行神器。它几乎标示了全球有互联网覆盖的每个角落,对建筑物的 3D 视觉处理也早在去年就完成,这个数据处理的工作量可能是目前最大的了,但这也仅限于数据集中的层面。真正的数据分析和挖掘体现在:输入一个地点时,最近被最多用户采用的路径会被最先推荐给用户。
Google 还把 Google+,Panoramio 和其他 Google 云平台的图片进行了标记和处理,将图片内容和地理位置信息地结合在一起,图像识别和社交系统评分处理后,Google 能够把质量比较高的的图片推送给用户,优化了用户看地图时的视觉感受。
大数据为 Google 带来了丰厚的利润,比如在美国你一旦上网就能感觉到时无处不在的 Google 广告(AdSense)。当然,它是一把双刃剑,给站长们带来收入的同时,但如何平衡用户隐私的问题,是大数据处理需要克服的又一个技术难关,或许还需要互联网秩序的进一步完善去支持。
像在【上】中所说,除 Facebook 等几个很领先的公司外,大部分公司要么还没有自行处理数据的能力。最后附上两个例子,想说这边的大公司没有独立大数据部门也是正常的,采取外包合作是普遍现象:
Pinterest:
Pinterest 曾尝试自行通过 Amazon EMR 建立数据处理平台,但是因为其稳定性无法控制和数据量增长过快的原因,最终决定改为使用 Qubole 提供的服务。在 Qubole 这个第三方平台上,Pinterest 有能力处理其 0.7 亿用户每天所产生的海量数据,并且能够完成包括 ETL、搜索、ad hoc query 等不同种类的数据处理方式。尽管 Pinterest 也是一个技术性公司,也有足够优秀的工程师来建立数据处理团队,他们依然选择了 Qubole 这样的专业团队来完成数据处理服务。
Nike:
不仅仅硅谷的互联网公司,众多传统企业也逐渐开始使用大数据相关技术。一个典型的例子就是 Nike。Nike 从 2012 年起与 API 服务公司 Apigee 合作,一方面,他们通过 Apigee 的 API 完善公司内部的数据管理系统,让各个部门的数据进行整合,使得公司内部运行更加顺畅、有效率。另一方面,他们也通过 API 开发 Nike Fuel Band 相关的移动产品。更是在 2014 年开启了 Nike+ FuelLab 项目,开放了相关 API,使得众多的开放者可以利用 Nike 所收集的大量数据开发数据分析产品,成功地连接了 Nike 传统的零售业务,新的科技开发,和大数据价值。
数据分析咨询请扫描二维码
数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21数据分析作为一个备受追捧的职业领域,吸引着越来越多的女性加入其中。对于女生而言,在选择成为一名数据分析师时,行业选择至关 ...
2024-11-21大数据技术专业主要学习计算机科学、数学、统计学和信息技术等领域的基础理论和技能,旨在培养具备大数据处理、分析和应用能力的 ...
2024-11-21《Python数据分析极简入门》 第2节 3 Pandas数据查看 这里我们创建一个DataFrame命名为df: importnumpyasnpi ...
2024-11-21越老越吃香的行业主要集中在需要长时间经验积累和专业知识的领域。这些行业通常知识更新换代较慢,因此随着年龄的增长,从业者能 ...
2024-11-20数据导入 使用pandas库的read_csv()函数读取CSV文件或使用read_excel()函数读取Excel文件。 支持处理不同格式数据,可指定分隔 ...
2024-11-20大数据与会计专业是一门结合了大数据分析技术和会计财务理论知识的新型复合型学科,旨在培养能够适应现代会计业务新特征的高层次 ...
2024-11-20要成为一名数据分析师,需要掌握一系列硬技能和软技能。以下是成为数据分析师所需的关键技能: 统计学基础 理解基本的统计概念 ...
2024-11-20是的,Python可以用于数据分析。Python在数据分析领域非常流行,因为它拥有丰富的库和工具,能够高效地处理从数据清洗到可视化的 ...
2024-11-20在这个数据驱动的时代,数据分析师的角色变得愈发不可或缺。他们承担着帮助企业从数据中提取有价值信息的责任,而这些信息可以大 ...
2024-11-20数据分析作为现代信息时代的支柱之一,已经成为各行业不可或缺的工具。无论是在商业、科研还是日常决策中,数据分析都扮演着至关 ...
2024-11-20数字化转型已成为当今商业世界的热点话题。它不仅代表着技术的提升,还涉及企业业务流程、组织结构和文化的深层次变革。理解数字 ...
2024-11-20在现代社会的快速变迁中,选择一个具有长期增长潜力的行业显得至关重要。了解未来发展前景好的行业不仅能帮助我们进行职业选择, ...
2024-11-20统计学专业的就业方向和前景非常广泛且充满机遇。随着大数据、人工智能等技术的快速发展,统计学的重要性进一步凸显,相关人才的 ...
2024-11-20