硅谷观察之大数据篇【上】:挖掘机和“改变世界的”大数据公司们
硅谷的这一个月,我在 startups demo days 和各种大公司一日游中度日,以为会逃脱国内各种会上各种“大数据”和挖掘机的梗,但万万没想到这里更甚。Hi~ 本文发自仅次于五道口的宇宙中心硅谷,与你分享大数据在这片土地上的真实生长状况。
什么是“改变世界”的大数据公司
近两周硅谷两场规模比较大的 demo 大会上,就有十多家自称做大数据的 startups,有做消费者行为的,有做体育分析的,有做 NGO 融资的,有做环保的,有做 UX 的,有做信贷评级的,当然还少不了做移动端广告的。乍看都是高大上的产品,但仔细琢磨一下会发现一些没那么高大上的细节。
比如,有一家介绍时候说 "Brings big data to teams, media and fans",用的是Moneyball作引子。展示结束后询问他们是如何分析视频以得到各种数据的,demo 的哥们表示他们请了一些人看视频的。没错,是人工。自然地,下一个问题就是:未来如何扩张以应对来自不同体育项目大量的全长录像?他的回答也很简单,雇佣更多人。听完我懵了一下,问,那打算如何利用收集的数据呢?答曰:开放 API,自己不做分析。
那么,说好的大数据呢?难道有数据就叫大数据公司了?如果庆丰包子留存有这半个多世纪以来的购买者和交易记录它就得叫大数据公司了?
是,但也不是。
先归纳了一下硅谷“大数据公司”的类型,有补充或修正的请拍砖:
所以回答之前的问题:是,因为包子铺只要收集的消费者数据量够大就能成为数据拥有者,有那么大的数据就有得到洞见的可能;不是,因为可能从真正意义上来说,大数据公司应该只属于第四种类型:AI。
对,我相信未来是 AI 的,而 AI 的食物是数据。就像很多产业链一样,最困难且最有价值的创新往往发生在接近最终用户的那端,比如 iPhone。大数据行业最有价值的部分在于如何利用机器去处理数据得到洞见,影响组织和个人的行为,从而改变世界。收集和整理数据在未来会变得标准化和自动化,而利用 AI 进行分析的能力会变得更为关键。
再看硅谷主打 AI 的公司,现在大致可以分成以下三类了:1. 分析用户行为,改进产品和营销的,比如 LinkedIn 的推荐系统和用 iBeacon 实现店内营销;2. 统筹大量分散个体,利用大数据实现精确有效的预测和规划的,比如 Uber 和前段时间出现的 Amazon Fresh 及 Grub Market;3. 分析识别各种类型的数据,开发更智能的设备和程序,比如 Google 大脑及无人车和以 Nest 为代表的智能设备等。
这些产品都有一个很明显的共性,就是在努力尝试把机器变得更智能以减轻人类的工作量。这个目的与科技发展的动力相符合,因此认为之前所说的第四种类型的公司是最有希望改变世界的。
这样的大数据公司需要什么样的人
那么大数据公司,或者说到真正可以改变世界的大数据公司需要什么样的人才呢?这里要介绍一个在硅谷被炒得很热的高频词汇:数据科学家。
这个职位出现的原因并不是因为数据量变大了需要更好的方式去存取,那是数据工程师的活。那产生的原因是什么呢?正是为了匹配上面第四种公司的需要。数据是 AI 当中不可分割的一部分,而且量越大越好,从数学上来说,数据越多则我们越能够有信心把从样本分析出来的结果推论到未知的数据当中,也就是说机器学习的效果越来越好,AI 越来越智能。
由此诞生的数据科学家是一个非常综合型的职业。它所要求的知识范围包括分析数据的统计学,到算法的选择优化,再到对行业知识的深刻理解。这群人是开发数据产品的核心。硅谷大部分 startup 已经把它当成是必需品了,以至于刚入行的新人也能领到差不多 $100K 的薪水。而模糊的定义和误解也让有的人戏称,data scientist is a data analyst living in the bay area。
值得一提的是,数据本身的飞速发展从另一个侧面其实也给数据工程师们的大数据处理带来了许多挑战。主要来源于以下的两个方面:
目前硅谷的创业公司正在探索新的应用领域和方法,比如说物联网这块。现在智能设备们才刚刚起步,Nest、被 Nest 收购的Dropcam、Iotera、emberlight等等都属于少部分人的玩具。待到家家户户都安装了智能冰箱、智能灯泡、智能桌子、智能沙发等等的时候,大数据的威力才会伴随着巨大的使用规模而发挥出来。
另外一个角度就是人。如果把之前谈的设备全部置换成个人的时候,他们的相互关系在各种维度上的交错会产生一张巨大的网络,其中的每个组成部分都由大量的数据组成。分析理解预测这些社会关系将会是大数据另一个有趣的应用方向,即Social Physics。不过按照从硅谷到全国的速度,感觉不管哪一方面的普及起码得等上五年以上的时间。
展望一下未来的话,如果参照以前的技术革命和行业发展来看大数据,那么大数据的底层设施将会逐渐被隔离,被模块化和标准化,甚至是自动化,而在其上的中间层和应用层将成为各大公司的数据工程师们激烈攻克的主战场。
硅谷公司的大数据运行现状
目前硅谷各个公司的数据处理水平和模式差别还是蛮大的。除 Facebook 等几个很领先的公司外,大部分公司要么还没有能力自行处理数据,要么就是正在建立单独的数据处理部门,主要负责从数据基本处理到后期分析的各个环节,然后再送到公司内部的其他部门。
对于这些公司来说,建立一个单独的数据处理部门可能还有还路漫漫其修远兮。举个例子来说,Facebook 有一个超过 30 人的团队花了近 4 年的时间才建立了 Facebook 的数据处理平台。如今,Facebook 仍需要超过 100 名工程师来支持这个平台的日常运行。可想而知,光是大数据分析的基础设施就已经是一个耗时耗力的项目了。LinkedIn 大数据部门的建设也已花了整整六年。
普遍来说,各公司自主建立数据处理平台存在着几个难点:
这几个主要难点使得大数据分析越来越专业化、服务化,以至于我们渐渐看到一条“硅谷数据处理产业链”的出现。从数据的储存,数据分析平台建立,到数据分析,数据可视化等等各个环节的成本越来越高,这使得本身技术能力很强的公司都还是使用专业数据处理公司提供的服务,而将更多的人才和资源放到核心业务的开发上。
另外,就是各个公司对于数据处理的要求也越来越高。不仅仅需要有效的处理结果,也需要数据处理可以 self-service、self-managing、保证数据安全性、完善实时分析。这些诸多需求也使得专业化团队的优势更加突出。而这样一条整合服务链的行程,也给众多的大数据公司提供了机会。
硅谷是非常神奇的地方。科技概念在这里也不能免俗会被追捧,被炒得很热。但这种激情和关注某个程度上讲正是硅谷创新的动力。即使存在很多投机贴标签的人,即使一片片的大数据 startups 被拍死在沙滩上,即使 Gartner 预测大数据概念将被回归现实,但相信会有更多的人投入到大数据这个行业,开发出更智能,更有影响力的产品。毕竟,大数据本身,不像一个单纯的 pitch 那样,它能够保证的是一定可以中看并且中用。
在硅谷观察之大数据篇的【下】中,我采访了 Evernote AI 部门负责人 Zeesha Currimbhoy、LinkedIn 大数据部门总监 Simon Zhang,并会带来三家美国知名公司的大数据发展状况。通过这些,可以更具体地知道硅谷这些公司在怎么做一个好的挖掘机和如何“改变世界”。
数据分析咨询请扫描二维码
自学数据分析可能是一条充满挑战却又令人兴奋的道路。随着数据在现代社会中的重要性日益增长,掌握数据分析技能不仅能提升你的就 ...
2024-11-14数据分析相关职业选择 数据分析领域正在蓬勃发展,为各种专业背景的人才提供了丰富的职业机会。从初学者到有经验的专家,每个人 ...
2024-11-14数据挖掘与分析在金融行业的使用 在当今快速发展的金融行业中,数据挖掘与分析的应用愈发重要,成为驱动行业变革和提升竞争力的 ...
2024-11-14学习数据挖掘需要掌握哪些技能 数据挖掘是一个不断发展的领域,它结合了统计学、计算机科学和领域专业知识,旨在从数据中提取有 ...
2024-11-14统计学作为一门基于数据的学科,其广泛的应用领域和多样的职业选择,使得毕业生拥有丰厚的就业前景。无论是在政府还是企业,统计 ...
2024-11-14在当今高速发展的技术环境下,企业正在面临前所未有的机遇和挑战。数字化转型已成为企业保持竞争力和应对市场变化的必由之路。要 ...
2024-11-13爬虫技术在数据分析中扮演着至关重要的角色,其主要作用体现在以下几个方面: 数据收集:爬虫能够自动化地从互联网上抓取大量数 ...
2024-11-13在数据分析中,数据可视化是一种将复杂数据转化为图表、图形或其他可视形式的技术,旨在通过直观的方式帮助人们理解数据的含义与 ...
2024-11-13在现代银行业中,数字化用户行为分析已成为优化产品和服务、提升客户体验和提高业务效率的重要工具。通过全面的数据采集、深入的 ...
2024-11-13在这个数据飞速增长的时代,企业若想在竞争中占据优势,必须充分利用数据分析优化其营销策略。数据不仅有助于理解市场趋势,还可 ...
2024-11-13数据分析行业的就业趋势显示出多个积极的发展方向。随着大数据和人工智能技术的不断进步,数据分析在各行各业中的应用变得越来越 ...
2024-11-13市场数据分析是一门涉及多种技能和工具的学科,对企业在竞争激烈的市场中保持竞争力至关重要。通过数据分析,企业不仅可以了解当 ...
2024-11-13数据分析与数据挖掘是数据科学领域中两个关键的组成部分,它们各有独特的目标、方法和应用场景。尽管它们经常在实际应用中结合使 ...
2024-11-13在如今这个数据驱动的时代,数据分析能力已经成为许多行业的重要技能。无论是为工作需要,还是为了职业转型,掌握数据分析都能够 ...
2024-11-13在如今这个数据驱动的时代,数据分析能力已经成为许多行业的重要技能。无论是为工作需要,还是为了职业转型,掌握数据分析都能够 ...
2024-11-13作为一名业务分析师,你肩负着将业务需求转化为技术解决方案的重任。面试这一角色时,涉及的问题多种多样,涵盖技术技能、分析能 ...
2024-11-13自学数据分析可能看似一项艰巨的任务,尤其在开始时。但是,通过一些策略和方法,你可以系统地学习和掌握数据分析的相关知识和技 ...
2024-11-10Excel是数据分析领域中的一款强大工具,它凭借其灵活的功能和易用的界面,成为了许多数据分析师和从业者的首选。无论是简单的数 ...
2024-11-10在快速发展的商业环境中,数据分析能力已经成为许多行业的核心竞争力。无论是初学者还是经验丰富的专家,搭建一个有效的数据分析 ...
2024-11-10在如今的数据驱动世界,数据分析师在各行各业中扮演着至关重要的角色。随着企业越来越依赖数据决策,数据分析职位的需求不断增加 ...
2024-11-10