硅谷的这一个月,我在 startups demo days 和各种大公司一日游中度日,以为会逃脱国内各种会上各种“大数据”和挖掘机的梗,但万万没想到这里更甚。Hi~ 本文发自仅次于五道口的宇宙中心硅谷,与你分享大数据在这片土地上的真实生长状况。
什么是“改变世界”的大数据公司
近两周硅谷两场规模比较大的 demo 大会上,就有十多家自称做大数据的 startups,有做消费者行为的,有做体育分析的,有做 NGO 融资的,有做环保的,有做 UX 的,有做信贷评级的,当然还少不了做移动端广告的。乍看都是高大上的产品,但仔细琢磨一下会发现一些没那么高大上的细节。
比如,有一家介绍时候说 "Brings big data to teams, media and fans",用的是Moneyball作引子。展示结束后询问他们是如何分析视频以得到各种数据的,demo 的哥们表示他们请了一些人看视频的。没错,是人工。自然地,下一个问题就是:未来如何扩张以应对来自不同体育项目大量的全长录像?他的回答也很简单,雇佣更多人。听完我懵了一下,问,那打算如何利用收集的数据呢?答曰:开放 API,自己不做分析。
那么,说好的大数据呢?难道有数据就叫大数据公司了?如果庆丰包子留存有这半个多世纪以来的购买者和交易记录它就得叫大数据公司了?
是,但也不是。
先归纳了一下硅谷“大数据公司”的类型,有补充或修正的请拍砖:
数据的拥有者、数据源:特点是业务优势能收集到大量数据,就像煤老板垄断一个地区的矿一样。其实大多数有能力产生或收集数据的公司都属于这类型,比如Vantage Sports和收集了PB级数据的包子铺。
大数据咨询:特点是非常技术,提供从基础设施规划建设维护到软件开发和数据分析等的服务,但不拥有数据,比如Cloudera这家不到500人的startup是最著名的Hadoop架构咨询公司。
做大数据工具的:比如AMPLab出来的Databricks和Yahoo人主导的Hortonworks。
整合应用型:特点是收集拥有或购买一些数据,然后结合AI来解决更多实际的痛点。
所以回答之前的问题:是,因为包子铺只要收集的消费者数据量够大就能成为数据拥有者,有那么大的数据就有得到洞见的可能;不是,因为可能从真正意义上来说,大数据公司应该只属于第四种类型:AI。
对,我相信未来是 AI 的,而 AI 的食物是数据。就像很多产业链一样,最困难且最有价值的创新往往发生在接近最终用户的那端,比如 iPhone。大数据行业最有价值的部分在于如何利用机器去处理数据得到洞见,影响组织和个人的行为,从而改变世界。收集和整理数据在未来会变得标准化和自动化,而利用 AI 进行分析的能力会变得更为关键。
再看硅谷主打 AI 的公司,现在大致可以分成以下三类了:1. 分析用户行为,改进产品和营销的,比如 LinkedIn 的推荐系统和用 iBeacon 实现店内营销;2. 统筹大量分散个体,利用大数据实现精确有效的预测和规划的,比如 Uber 和前段时间出现的 Amazon Fresh 及 Grub Market;3. 分析识别各种类型的数据,开发更智能的设备和程序,比如 Google 大脑及无人车和以 Nest 为代表的智能设备等。
这些产品都有一个很明显的共性,就是在努力尝试把机器变得更智能以减轻人类的工作量。这个目的与科技发展的动力相符合,因此认为之前所说的第四种类型的公司是最有希望改变世界的。
这样的大数据公司需要什么样的人
那么大数据公司,或者说到真正可以改变世界的大数据公司需要什么样的人才呢?这里要介绍一个在硅谷被炒得很热的高频词汇:数据科学家。
这个职位出现的原因并不是因为数据量变大了需要更好的方式去存取,那是数据工程师的活。那产生的原因是什么呢?正是为了匹配上面第四种公司的需要。数据是 AI 当中不可分割的一部分,而且量越大越好,从数学上来说,数据越多则我们越能够有信心把从样本分析出来的结果推论到未知的数据当中,也就是说机器学习的效果越来越好,AI 越来越智能。
由此诞生的数据科学家是一个非常综合型的职业。它所要求的知识范围包括分析数据的统计学,到算法的选择优化,再到对行业知识的深刻理解。这群人是开发数据产品的核心。硅谷大部分 startup 已经把它当成是必需品了,以至于刚入行的新人也能领到差不多 $100K 的薪水。而模糊的定义和误解也让有的人戏称,data scientist is a data analyst living in the bay area。
值得一提的是,数据本身的飞速发展从另一个侧面其实也给数据工程师们的大数据处理带来了许多挑战。主要来源于以下的两个方面:
数据量的急速增长。如今,数据的产生变得异常容易。社交网络,移动应用,几乎所有的互联网相关产品每时每刻都在产生众多数据。传统的集中储存计算方式显然无法处理如此庞大的数据量。这时,我们就需要新的储存方式,如云储存,以及新的处理方案,如Hadoop这样的分布计算平台。
数据本身的非结构化。在传统的数据处理领域,我们处理的主要是结构化数据,例如,Excel表格可以显示量化数据等。而如今我们面对着越来越多的非结构化数据,如社交网络的评论,用户上传的音频视频等。这些数据存在于包括文本、图片、视频、音频等众多的数据格式中,这些数据中隐含着众多有价值的信息,但这些信息却需要深度的计算才可以分析出来。这就需要我们利用智能化分析、图像识别等等一系列新的算法来进行数据挖掘,这也就是“大数据”的挑战所在。
目前硅谷的创业公司正在探索新的应用领域和方法,比如说物联网这块。现在智能设备们才刚刚起步,Nest、被 Nest 收购的Dropcam、Iotera、emberlight等等都属于少部分人的玩具。待到家家户户都安装了智能冰箱、智能灯泡、智能桌子、智能沙发等等的时候,大数据的威力才会伴随着巨大的使用规模而发挥出来。
另外一个角度就是人。如果把之前谈的设备全部置换成个人的时候,他们的相互关系在各种维度上的交错会产生一张巨大的网络,其中的每个组成部分都由大量的数据组成。分析理解预测这些社会关系将会是大数据另一个有趣的应用方向,即Social Physics。不过按照从硅谷到全国的速度,感觉不管哪一方面的普及起码得等上五年以上的时间。
展望一下未来的话,如果参照以前的技术革命和行业发展来看大数据,那么大数据的底层设施将会逐渐被隔离,被模块化和标准化,甚至是自动化,而在其上的中间层和应用层将成为各大公司的数据工程师们激烈攻克的主战场。
硅谷公司的大数据运行现状
目前硅谷各个公司的数据处理水平和模式差别还是蛮大的。除 Facebook 等几个很领先的公司外,大部分公司要么还没有能力自行处理数据,要么就是正在建立单独的数据处理部门,主要负责从数据基本处理到后期分析的各个环节,然后再送到公司内部的其他部门。
对于这些公司来说,建立一个单独的数据处理部门可能还有还路漫漫其修远兮。举个例子来说,Facebook 有一个超过 30 人的团队花了近 4 年的时间才建立了 Facebook 的数据处理平台。如今,Facebook 仍需要超过 100 名工程师来支持这个平台的日常运行。可想而知,光是大数据分析的基础设施就已经是一个耗时耗力的项目了。LinkedIn 大数据部门的建设也已花了整整六年。
普遍来说,各公司自主建立数据处理平台存在着几个难点:
没有足够优秀的数据工程师来组建团队
没有足够能力整合数据
没有易于操作的基础软硬件来支持数据分析
这几个主要难点使得大数据分析越来越专业化、服务化,以至于我们渐渐看到一条“硅谷数据处理产业链”的出现。从数据的储存,数据分析平台建立,到数据分析,数据可视化等等各个环节的成本越来越高,这使得本身技术能力很强的公司都还是使用专业数据处理公司提供的服务,而将更多的人才和资源放到核心业务的开发上。
另外,就是各个公司对于数据处理的要求也越来越高。不仅仅需要有效的处理结果,也需要数据处理可以 self-service、self-managing、保证数据安全性、完善实时分析。这些诸多需求也使得专业化团队的优势更加突出。而这样一条整合服务链的行程,也给众多的大数据公司提供了机会。
硅谷是非常神奇的地方。科技概念在这里也不能免俗会被追捧,被炒得很热。但这种激情和关注某个程度上讲正是硅谷创新的动力。即使存在很多投机贴标签的人,即使一片片的大数据 startups 被拍死在沙滩上,即使 Gartner 预测大数据概念将被回归现实,但相信会有更多的人投入到大数据这个行业,开发出更智能,更有影响力的产品。毕竟,大数据本身,不像一个单纯的 pitch 那样,它能够保证的是一定可以中看并且中用。
在硅谷观察之大数据篇的【下】中,我采访了 Evernote AI 部门负责人 Zeesha Currimbhoy、LinkedIn 大数据部门总监 Simon Zhang,并会带来三家美国知名公司的大数据发展状况。通过这些,可以更具体地知道硅谷这些公司在怎么做一个好的挖掘机和如何“改变世界”。
本文来自36氪原创文章,作者: 曾小苏 Clara
数据分析咨询请扫描二维码
数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面: 基础知识: 数据分析的基本概念 ...
2024-11-22数据分析适合在多个单位工作,包括但不限于以下领域: 金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经 ...
2024-11-22数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面: 数据收集与整理:数据分析师 ...
2024-11-22数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能: ...
2024-11-22数据开发和数据分析是两个密切相关但又有所区别的领域。以下是它们的主要区别: 定义和目标: 数据开发:数据开发涉及数据的 ...
2024-11-22数据架构师是负责设计和管理企业数据架构的关键角色,其职责涵盖了多个方面,包括数据治理、数据模型设计、数据仓库构建、数据安 ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列的技能和能力,以确保能够有效地处理、分析和解释数据,从而支持业务决策。以下是数据分析师所需的主要 ...
2024-11-22需求持续增长 - 未来数据分析师需求将持续上升,企业对数据驱动决策的依赖加深。 - 预测到2025年,中国将需要高达220万的数据人 ...
2024-11-22《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21数据分析作为一个备受追捧的职业领域,吸引着越来越多的女性加入其中。对于女生而言,在选择成为一名数据分析师时,行业选择至关 ...
2024-11-21大数据技术专业主要学习计算机科学、数学、统计学和信息技术等领域的基础理论和技能,旨在培养具备大数据处理、分析和应用能力的 ...
2024-11-21