硅谷观察之大数据篇【上】:挖掘机和“改变世界的”大数据公司们
硅谷的这一个月,我在 startups demo days 和各种大公司一日游中度日,以为会逃脱国内各种会上各种“大数据”和挖掘机的梗,但万万没想到这里更甚。Hi~ 本文发自仅次于五道口的宇宙中心硅谷,与你分享大数据在这片土地上的真实生长状况。
什么是“改变世界”的大数据公司
近两周硅谷两场规模比较大的 demo 大会上,就有十多家自称做大数据的 startups,有做消费者行为的,有做体育分析的,有做 NGO 融资的,有做环保的,有做 UX 的,有做信贷评级的,当然还少不了做移动端广告的。乍看都是高大上的产品,但仔细琢磨一下会发现一些没那么高大上的细节。
比如,有一家介绍时候说 "Brings big data to teams, media and fans",用的是Moneyball作引子。展示结束后询问他们是如何分析视频以得到各种数据的,demo 的哥们表示他们请了一些人看视频的。没错,是人工。自然地,下一个问题就是:未来如何扩张以应对来自不同体育项目大量的全长录像?他的回答也很简单,雇佣更多人。听完我懵了一下,问,那打算如何利用收集的数据呢?答曰:开放 API,自己不做分析。
那么,说好的大数据呢?难道有数据就叫大数据公司了?如果庆丰包子留存有这半个多世纪以来的购买者和交易记录它就得叫大数据公司了?
是,但也不是。
先归纳了一下硅谷“大数据公司”的类型,有补充或修正的请拍砖:
所以回答之前的问题:是,因为包子铺只要收集的消费者数据量够大就能成为数据拥有者,有那么大的数据就有得到洞见的可能;不是,因为可能从真正意义上来说,大数据公司应该只属于第四种类型:AI。
对,我相信未来是 AI 的,而 AI 的食物是数据。就像很多产业链一样,最困难且最有价值的创新往往发生在接近最终用户的那端,比如 iPhone。大数据行业最有价值的部分在于如何利用机器去处理数据得到洞见,影响组织和个人的行为,从而改变世界。收集和整理数据在未来会变得标准化和自动化,而利用 AI 进行分析的能力会变得更为关键。
再看硅谷主打 AI 的公司,现在大致可以分成以下三类了:1. 分析用户行为,改进产品和营销的,比如 LinkedIn 的推荐系统和用 iBeacon 实现店内营销;2. 统筹大量分散个体,利用大数据实现精确有效的预测和规划的,比如 Uber 和前段时间出现的 Amazon Fresh 及 Grub Market;3. 分析识别各种类型的数据,开发更智能的设备和程序,比如 Google 大脑及无人车和以 Nest 为代表的智能设备等。
这些产品都有一个很明显的共性,就是在努力尝试把机器变得更智能以减轻人类的工作量。这个目的与科技发展的动力相符合,因此认为之前所说的第四种类型的公司是最有希望改变世界的。
这样的大数据公司需要什么样的人
那么大数据公司,或者说到真正可以改变世界的大数据公司需要什么样的人才呢?这里要介绍一个在硅谷被炒得很热的高频词汇:数据科学家。
这个职位出现的原因并不是因为数据量变大了需要更好的方式去存取,那是数据工程师的活。那产生的原因是什么呢?正是为了匹配上面第四种公司的需要。数据是 AI 当中不可分割的一部分,而且量越大越好,从数学上来说,数据越多则我们越能够有信心把从样本分析出来的结果推论到未知的数据当中,也就是说机器学习的效果越来越好,AI 越来越智能。
由此诞生的数据科学家是一个非常综合型的职业。它所要求的知识范围包括分析数据的统计学,到算法的选择优化,再到对行业知识的深刻理解。这群人是开发数据产品的核心。硅谷大部分 startup 已经把它当成是必需品了,以至于刚入行的新人也能领到差不多 $100K 的薪水。而模糊的定义和误解也让有的人戏称,data scientist is a data analyst living in the bay area。
值得一提的是,数据本身的飞速发展从另一个侧面其实也给数据工程师们的大数据处理带来了许多挑战。主要来源于以下的两个方面:
目前硅谷的创业公司正在探索新的应用领域和方法,比如说物联网这块。现在智能设备们才刚刚起步,Nest、被 Nest 收购的Dropcam、Iotera、emberlight等等都属于少部分人的玩具。待到家家户户都安装了智能冰箱、智能灯泡、智能桌子、智能沙发等等的时候,大数据的威力才会伴随着巨大的使用规模而发挥出来。
另外一个角度就是人。如果把之前谈的设备全部置换成个人的时候,他们的相互关系在各种维度上的交错会产生一张巨大的网络,其中的每个组成部分都由大量的数据组成。分析理解预测这些社会关系将会是大数据另一个有趣的应用方向,即Social Physics。不过按照从硅谷到全国的速度,感觉不管哪一方面的普及起码得等上五年以上的时间。
展望一下未来的话,如果参照以前的技术革命和行业发展来看大数据,那么大数据的底层设施将会逐渐被隔离,被模块化和标准化,甚至是自动化,而在其上的中间层和应用层将成为各大公司的数据工程师们激烈攻克的主战场。
硅谷公司的大数据运行现状
目前硅谷各个公司的数据处理水平和模式差别还是蛮大的。除 Facebook 等几个很领先的公司外,大部分公司要么还没有能力自行处理数据,要么就是正在建立单独的数据处理部门,主要负责从数据基本处理到后期分析的各个环节,然后再送到公司内部的其他部门。
对于这些公司来说,建立一个单独的数据处理部门可能还有还路漫漫其修远兮。举个例子来说,Facebook 有一个超过 30 人的团队花了近 4 年的时间才建立了 Facebook 的数据处理平台。如今,Facebook 仍需要超过 100 名工程师来支持这个平台的日常运行。可想而知,光是大数据分析的基础设施就已经是一个耗时耗力的项目了。LinkedIn 大数据部门的建设也已花了整整六年。
普遍来说,各公司自主建立数据处理平台存在着几个难点:
这几个主要难点使得大数据分析越来越专业化、服务化,以至于我们渐渐看到一条“硅谷数据处理产业链”的出现。从数据的储存,数据分析平台建立,到数据分析,数据可视化等等各个环节的成本越来越高,这使得本身技术能力很强的公司都还是使用专业数据处理公司提供的服务,而将更多的人才和资源放到核心业务的开发上。
另外,就是各个公司对于数据处理的要求也越来越高。不仅仅需要有效的处理结果,也需要数据处理可以 self-service、self-managing、保证数据安全性、完善实时分析。这些诸多需求也使得专业化团队的优势更加突出。而这样一条整合服务链的行程,也给众多的大数据公司提供了机会。
硅谷是非常神奇的地方。科技概念在这里也不能免俗会被追捧,被炒得很热。但这种激情和关注某个程度上讲正是硅谷创新的动力。即使存在很多投机贴标签的人,即使一片片的大数据 startups 被拍死在沙滩上,即使 Gartner 预测大数据概念将被回归现实,但相信会有更多的人投入到大数据这个行业,开发出更智能,更有影响力的产品。毕竟,大数据本身,不像一个单纯的 pitch 那样,它能够保证的是一定可以中看并且中用。
在硅谷观察之大数据篇的【下】中,我采访了 Evernote AI 部门负责人 Zeesha Currimbhoy、LinkedIn 大数据部门总监 Simon Zhang,并会带来三家美国知名公司的大数据发展状况。通过这些,可以更具体地知道硅谷这些公司在怎么做一个好的挖掘机和如何“改变世界”。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Excel是数据分析的重要工具,强大的内置功能使其成为许多分析师的首选。在日常工作中,启用Excel的数据分析工具库能够显著提升数 ...
2024-12-23在当今信息爆炸的时代,数据分析师如同一位现代社会的侦探,肩负着从海量数据中提炼出有价值信息的重任。在这个过程中,掌握一系 ...
2024-12-23在现代的职场中,制作吸引人的PPT已经成为展示信息的重要手段,而其中数据对比的有效呈现尤为关键。为了让数据在幻灯片上不仅准 ...
2024-12-23在信息泛滥的现代社会,数据分析师已成为企业决策过程中不可或缺的角色。他们的任务是从海量数据中提取有价值的洞察,帮助组织制 ...
2024-12-23在数据驱动时代,数据分析已成为各行各业的必需技能。无论是提升个人能力还是推动职业发展,选择一条适合自己的学习路线至关重要 ...
2024-12-23在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17