分享 :潘多拉首位数据科学家的经验谈
各公司做法不尽相同。有些公司让所有数据科学家全都坐在一起——不管他们从事哪些工作,以便他们保持紧密沟通。有些公司甚至让数据科学家完全独立于公司其他部门,闭门解决问题,然后将方案移交给团队外的工程师。还有的则采用一种顾问模式,数据科学家临时性地空降到某个项目中去,分析问题,或是解答一次性的问题。
不能把眼光局限于博士和科研人员,你需要的是那些多面手,相对于钻研理论,他们更喜欢解决实际应用问题。如果你雇佣的人爱钻牛角尖,一心扑在实验上,却看不到它们对产品的直接影响,那么,结果将会事倍功半。
要成为一名卓有成效的数据科学家,你必须认识到,你的工作不只是研究。你必须对自己的工作进行定量和定性,使全公司都能理解。
原文翻译:
五年前,戈登·里奥斯(Gordon Rios)成为音乐服务商潘多拉(Pandora)首位正式的数据科学家。他目睹着团队壮大到原先的十几倍,且开始在公司的每一个决策中起到举足轻重的作用。考虑到潘多拉的多项服务都与数据息息相关——从著名的音乐基因组计划的维护,到创造更多的途径,帮助人们发现喜爱的音乐——这成为了数据科学团队快速成长、学会发挥作用的最佳例证之一。
在潘多拉,里奥斯敏锐地观察着科学家的招聘以及数据科学团队的组建方式。对于哪些做法可行,哪些不可行,他能提供难得的洞见。眼下,不论是在大型科技公司还是小型初创企业,数据科学的重要性都日益凸显,所以,知道如何在这方面最大限度地提高生产效率,就变得愈加重要。
在此次专访中,里奥斯谈论了潘多拉公司数据科学工作的演变,以及如何分配资源、确保高效的管理并保持灵活的沟通,以促成数据科学工作的顺畅开展,在这方面,有三大重要经验可供大家借鉴。
如果你问里奥斯,最让他激情澎湃的是什么,他首先想到的就是科学和音乐。人们怎么决定自己听什么,为什么做出这样的决定,以及他们的口味和习惯如何变化,这些都让他着迷。因此不难想见,在潘多拉播放列表的创建中,他就是核心贡献者之一。他和工程师以及其他科学家一道,利用机器学习方法,测试并改进着播放列表的算法。
值得一提的是,他是潘多拉“播放列表团队”的全职成员。他首先是这个团队的成员,其次才是数据科学团队的成员——因为他全心全意地投身于播放列表的建设,力图使之尽善尽美。播放列表团队不仅有工程师,还有产品经理、设计师等等,共同朝这一方向努力。
并不是所有的数据科学工作都是这样展开的。因为这个领域相对较新,各公司做法不尽相同。有些公司让所有数据科学家全都坐在一起——不管他们从事哪些工作,以便他们保持紧密沟通。有些公司甚至让数据科学家完全独立于公司其他部门,闭门解决问题,然后将方案移交给团队外的工程师。还有的则采用一种顾问模式,数据科学家临时性地空降到某个项目中去,分析问题,或是解答一次性的问题。
潘多拉发现,效果最好的还是以功能为中心组建团队,让数据科学家充当其中的一员——根据经验,里奥斯赞成这种做法。
“分配到一个小组以后,数据科学家得以了解这个小组,并成为它的一分子,这才是理想状态。”他说,“被分配到播放列表团队后,你还是会和其他数据科学家保持沟通,但要向播放列表团队的管理者报告工作。你全职服务于这个项目。”
潘多拉擅长以相对零散的人手做到了不起的事情。方方面面都做到事半功倍,已经成为潘多拉的核心价值之一。
“播放列表团队的使命,就是确保音乐找到它们的‘知音’。我们希望艺术家收获听众,希望听众收获最好的体验。这取决于你能否让人们尝试新的音乐。”而这又全靠做实验、收集数据,以及设计算法,促使人们循序渐进地迈出自己的音乐舒适区。
因此,里奥斯和他的团队所面临的数据挑战令人咋舌:就以用户行为方面的数字为例,他们得确定人们听得是否满意,用户跳过歌曲是因为不熟悉,还是根本就不合胃口,还是听厌了。他们如何解答这些问题,关系到每一个听众在最细微处的体验。
“对于这一类型的项目,你需要运营、工程、产品人员和科学家同时参与,从不同侧面出击,但他们要对该服务怀有共同的愿景。”里奥斯说,“顾问模式永远不会奏效。在我职业生涯早期,当我第一次接触数据挖掘的时候,就经常担任顾问。而对于涉及面较广的问题,这种模式很难取得进展。你必须成为团队一员,才能了解到问题的方方面面。”正是出于这个原因,他建议让数据科学家成为团队的永久成员,除非项目取消,或是有其他具有说服力的变动理由。数据科学家需要全身心投入到项目中。
“如果你把数据科学团队分割开来,他们就拿不出最好的表现。他们会觉得无聊,或者效率低下。”
里奥斯说,最理想的情况,就是招募具备扎实工程技能的数据科学家。如果数据科学家就能出产品,那你不但节省了人手,还能靠他们把数据转化为有意义的产品。一旦认定数据科学是你初创企业成功的核心,你就要开始物色这样的通才。日后,你可以发展各个方向的专业人才,这也是非常重要的。
理想情况下,公司最初要有一名里奥斯那样的数据科学家。里奥斯就是把“瑞士军刀”,既能测试假设、编写代码,也能创建并部署算法。凭借先前在雅虎的工作经历,以及在搜索初创企业Zvents担任首席技术官的经验,里奥斯带来的是全栈编程能力、大数据领域的经验,以及机器学习技术。他还掌握着其他一些关键技能:能够自主工作、自我激励,还能负起责任,这些都是你的第一位数据科学家需要具备的能力。该领域的第一批员工很少受到严格管理,但如果找到合适的人选,即便如此也没有关系。
开始建立数据科学团队的时候,你应该保持一种灵活的态度,里奥斯说。不能把眼光局限于博士和科研人员,你需要的是那些多面手,相对于钻研理论,他们更喜欢解决实际应用问题。如果你雇佣的人爱钻牛角尖,一心扑在实验上,却看不到它们对产品的直接影响,那么,结果将会事倍功半。与此同时,雇佣博士人才也至关重要:他们训练有素,会主动钻研一些难题,而这些难题的解决将有助于提升你的竞争力。
这里,最举足轻重的变量是恰当的管理,里奥斯说。“多数情况下,良好的管理就是将员工技能和公司需求统一起来,但在数据科学方面,很多问题都需要相关人员既具备过硬的技能,又对问题感兴趣。”
“如果你找到的项目人员既具备娴熟的技能,又对解决问题怀有极高的兴趣,你就相当于找到了金矿。”
“当然有些时候,你不得不紧咬牙关,扛起那些索然无味但对公司至关重要的项目,但如果你手头不缺人才,那么,把项目分配给最适合它们的人才,这基本就是数据科学管理的精髓了。”里奥斯说,“能否始终如一地做到这一点,是优秀管理者与平庸管理者的最大区别。”
如今,潘多拉有一名负责播放列表增长与保留的研究主管,名叫奥斯卡·塞尔玛(Oscar Celma),任何公司都应该寻找像他这样的数据科学家作为团队领袖。他是一个名副其实的计算机高手、一名著作等身的博士,同时也是音乐推荐技术领域的领军人物。潘多拉计划把这种管理模式运用到其他领域,其中包括广告科学。
要让数据科学家团队的工作效率迈上新的台阶,管理者应该自问以下几个问题:
“要专注于让有才干的人协同工作;一旦做到这一点,你将看到创造力非凡的结果。”
好的数据科学管理与亦师亦友的协作关系息息相关,他说。虽然他建议将数据科学家编入跨职能团队,但科学家之间也需要合作——在融洽的工作氛围中分享最佳做法、思路以及解决方案。这是让优秀人才投身工作并不断成长的关键。
随着数据科学家的阵容不断壮大,潘多拉以协作精神为指引,建立了多个常规的沟通渠道,包括像Slack这样的通讯工具,其中的频道可以联络到所有的数据科学家,以及任何相关人士。人们用它来提出疑问,提供建议,甚至在内部传阅与正在解决的问题相关的学术论文。
虽然大部分时间,他们都不在一块儿工作,但数据科学团队会定期举行会议,并经常聚在一起吃午餐,讨论大家正在做些什么,展开一些非正式的思路探讨。很多解决方案都源于这样的讨论。稍微正式一点的话,他们会安排时间,向同事展示项目和研究结果,借机提问或回答问题,同时分享可能有助于其他实验的做法。关键是让基础设施的发展和团队步调一致,携手共进,不要沦落到积重难返的地步,同时保持交流,一来是鼓励相互学习,二来也能避免重复劳动。
里奥斯说,这些交流中,相当一部分应该围绕团队成员都善于哪些技能组合,虽然大多数人都算得上是多面手。“其中有的是传统的数据科学家,有的更擅长统计学,还有的更擅长软件开发。”他说。知道谁擅长什么,有助于你挑选合适的人才,从而更快地解决问题。
“在一个成功的数据科学团队里,人们快乐、充实,感受到一定的挑战性,并且能拿出重要的成果。这时,他们的表现处于最佳状态,提供的价值也是最多的。”里奥斯说,“出于种种原因,我们也会雇佣资历较浅、经验不足的数据科学家——因为他们适应快,学得也快——但要配备相应的管理和指导。”
他说,在考虑一个人能否胜任某项工作时,聪明与否从来不是问题的关键。据里奥斯观察,无论在什么地方,数据科学家的招聘流程都异常严格,聪明的头脑几乎是板上钉钉的事。到了数据科学领导者这一级,就更不用说了。真正的问题在于,他们与所需解决的问题是否合拍,与文化是否契合,以及能否帮助团队现有的科学家实现自我发展。
“判断一个数据科学管理者的好坏,可以看他管理的数据科学家工作效率如何。”里奥斯说。为此,在面试数据科学管理者时,要高标准、严要求,并且双管齐下:
对于受聘数据科学家必须了解并掌握的东西,他们必须有一定程度的了解,其中包括创建复杂的模型,指出特定产品中技术性最强的功能。他们的头脑必须和他们要管理的数据科学家一样灵活,要和数据科学家一样,快速地学会新事物。
“他们来面试的时候,一定要人见人爱。”里奥斯说,“先看文化是否契合,再谈技能组合是否合适。他们必须真心喜爱公司的产品,了解公司,以及公司想要解决的数据难题。要通过应聘获得这些职位是很难的,但难就对了。”
“一名优秀经理或合作者的标志,就是大家都希望你参与他们的项目。”
“要成为一名卓有成效的数据科学家,你必须认识到,你的工作不只是研究。你必须对自己的工作进行定量和定性,使全公司都能理解。”里奥斯说,“如果人们不互相交流,要取得全局性的良好结果,那是相当难的。”
所幸,在交流问题上,数据科学家都自带超能力。利用自己的量化能力,他们可以把自身的成绩衡量出来,并以具体而形象的方式,将自己的工作传达给公司其他部门。在这个方面,明确而持续不断的交流尤其重要,因为数据科学进展迅速。你一次又一次地做着实验,获得结果,进而修改软件,如此周而复始。在潘多拉,里奥斯和他的同事们都在不断地提出假设:怎样才能吸引更多听众,让更多的艺术家得到聆听。“我们提出修改意见,优先进行某些实验,然后面向少数听众迅速推出,看看有没有效果。”
歌曲推荐功能看似快如闪电、无缝衔接,但它却涉及许多‘活动部件’,由很多不同的人在负责。“我们其实有一个推荐策略大集合。”里奥斯解释说,“举个例子,我们可以多放80年代的音乐,比如辛迪·劳帕(Cindy Lauper)或雪儿(Cher)。根据用户行为,我们可以看出他们想听80年代流行乐还是Lady Gaga或蕾哈娜(Rihanna)这些较新的音乐。幕后涉及很多不同的工作。”
可以想见,当不同的团队在同一时间,就同一体验展开多项实验的时候,事情会变得相当复杂。因此,打造并维护一个先进的A/B测试平台就变得不可或缺。知道其他团队在做什么固然重要,但要支持多个工作小组的话,还是得靠平台。
“我们想尝试的东西千千万万,但必须遵循我们对该服务的愿景,不能超出这个范围。”
里奥斯说,潘多拉的数据方略之所以如此富有成效,原因之一就是重视特殊技能及其应用。哪些人擅长推荐项目,哪些人擅长机器学习,哪些人擅长发展用户,这些都不是秘密。每次有新人加入,都要培养这种透明度,使之成为常规做法。
“所以我们才这么重视数据科学家的招聘,要求他们既要有好奇心,又要有创业精神。”里奥斯说,“要在这样一个团队里取得成功,你就得全身心投入你专门负责的领域,在团队需要你的才干时,毫无保留地提供帮助。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“最近复购率一直在下降,我们的营销力度不小啊,为什么用户还是走了?” “是不是广告投放的用户质量不高?还是我们的产品问题 ...
2025-02-21以下文章来源于数有道 ,作者数据星爷 SQL查询是数据分析工作的基础,也是CDA数据分析师一级的核心考点,人工智能时代,AI能为 ...
2025-02-19在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-18当数据开始说谎:那些年我们交过的学费 你有没有经历过这样的场景?熬了三个通宵做的数据分析报告,在会议上被老板一句"这数据靠 ...
2025-02-17数据分析作为一门跨学科领域,融合了统计学、编程、业务理解和可视化技术。无论是初学者还是有一定经验的从业者,系统化的学习路 ...
2025-02-17挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-17近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的, ...
2025-02-14一秒精通 Deepseek,不用找教程,不用买资料,更不用报一堆垃圾课程,所有这么去做的,都是舍近求远,因为你忽略了 deepseek 的 ...
2025-02-12自学 Python 的关键在于高效规划 + 实践驱动。以下是一份适合零基础快速入门的自学路径,结合资源推荐和实用技巧: 一、快速入 ...
2025-02-12“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩 ...
2025-02-08活动介绍 为了助力大家在数据分析领域不断精进技能,我们特别举办本期打卡活动。在这里,你可以充分利用碎片化时间在线学习,让 ...
2025-02-071、闺女,醒醒,媒人把相亲的带来了。 我。。。。。。。 2、前年春节相亲相了40个, 去年春节相亲50个, 祖宗,今年你想相多少个 ...
2025-02-06在数据科学的广阔领域中,统计分析与数据挖掘占据了重要位置。尽管它们常常被视为有关联的领域,但两者在理论基础、目标、方法及 ...
2025-02-05在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-02-05当我们只有非常少量的已标记数据,同时有大量未标记数据点时,可以使用半监督学习算法来处理。在sklearn中,基于图算法的半监督 ...
2025-02-05考虑一种棘手的情况:训练数据中大部分样本没有标签。此时,我们可以考虑使用半监督学习方法来处理。半监督学习能够利用这些额 ...
2025-02-04一、数学函数 1、取整 =INT(数字) 2、求余数 =MOD(除数,被除数) 3、四舍五入 =ROUND(数字,保留小数位数) 4、取绝对值 =AB ...
2025-02-03作者:CDA持证人 余治国 一般各平台出薪资报告,都会哀嚎遍野。举个例子,去年某招聘平台发布《中国女性职场现状调查报告》, ...
2025-02-02真正的数据分析大神是什么样的呢?有人认为他们能轻松驾驭各种分析工具,能够从海量数据中找到潜在关联,或者一眼识别报告中的数 ...
2025-02-01现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31