数据科学家:站在大数据金字塔尖的人
现在的互联网行业,越来越多的企业对数据科学家求贤若渴。
虽然数据科学家的需求一直在快速增长,但事实是在业内还没有对数据科学家的准确定义。有人开玩笑说,「数据科学家就是住在硅谷的数据分析师」,甚至有人画了这样的漫画:
没错,找到一位优秀的数据科学家和找到一个理解数据科学家是做什么的人一样难。
要理解数据科学家是做什么,首先要理解人尽皆知却总被误读的大数据:大数据不是大量的数据,而是复杂的数据。
《大数据时代》联席作者Kenneth Cukier在Ted上的热门演讲: 《Big data is better data》,告诉你大数据驱动技术和设计的未来,以及大数据的「好」与「坏」。
这些解决复杂数据带来的问题的人,就是数据科学家。
数据科学家在工作中是怎样解决问题的呢?
分享两个共享经济的典范:Airbnb和Uber——在运用大数据方面的经验。
1、Airbnb
在Airbnb,工程师要解决这样一个问题:如何让用户了解一个自己从来没去过的地方?如何知道哪个地方最适合自己的旅行?
Airbnb拥有海量的独有数据,包括旅游地、用户评论、房源描述、社区信息等,Airbnb还有一支队伍去各地和当地人交流,搜集所有的相关历史数据。Airbnb的数据科学家是这样运用数据的:
Airbnb accommodations (red) and traditional accommodations (blue) in San Francisco
当用户在搜寻一个住宿的地方时,Airbnb的「location relevance model」会通过Airbnb社区告诉未来的客人哪里是更好的住宿地。
当用户在寻找想体验的新地方时,「Airbnb Neighborhoods」会将当地的内容编辑亲手整理的必备资料和专业的照片呈献给用户。
Airbnb的「discovery team」通过自然语言处理和机器学习来为用户搜索关键词提供更准确的推荐。
Airbnb甚至造了一个叫做「AT-AT」的复杂工具,帮助用户更深入地了解某个地点,包括地理信息无法描述的文化或宗教上的区分。
2、Uber
缩短开着空车去接下一位乘客的时间和乘客等待的时间是Uber的车主和乘客的共同需求,他们希望这些时间越短越好。为此,Uber的数据科学家建立了「Location-based demand models」。
Uber heatmap in San Francisco
每天实时更新的热点地图(Heatmaps)可以有效帮助车主缩短空载时间,同时帮乘客减少等待时长。下一步,这张图甚至可以预测,这样车主会知道提前去哪里等待可以载到更多的乘客。
数据科学家的由来和定义
虽然数据科学三十年前就诞生了,但是数据科学家却是几年前刚出现的一个新词。在《数据之美》一书中,我们可以看到Facebook的数据科学家的起源:
在Facebook,我们发现传统的头衔如商业分析师、统计学家、工程师和研究科学家都不能确切地定义我们团队的角色。该角色的工作是变化多样的:在任意给定的一天,团队的一个成员可以用Python实现一个多阶段的处理管道流、设计假设检验、用工具R在数据样本上执行回归测试、在Hadoop上为数据密集型产品或服务设计和实现算法,或者把我们分析的结果以清晰简洁的方式展示给企业的其他成员。为了掌握完成这多方面任务需要的技术,我们创造了「数据科学家」这种角色。
所以,用一句话总结「数据科学家」的定义:
运用统计分析、机器学习、分布式处理等技术,从大量数据中提取出对业务有意义的信息,以易懂的形式传达给决策者,并创造出新的数据运用服务的人才。
数据科学家有哪几种类别
为了更好地阐释数据科学家,我们将它分为三类:
理论数据科学家致力于数据科学的理论研究,为其他的数据科学家创造框架和工具。本质上是将统计数据、数据存储和计算机科学在理论层面应用于大数据的学者
应用数据科学家对于如何运用大数据有更好的理解。科学需要严谨,我认为数据应用植根于学术严谨,但是在应用层面工作。应用数据科学家的工作是先进行架设,再用大数据进行验证。每个人都会受惠于他们的研究发现和工具。
行业数据科学家用应用数据科学地解决某个具体的市场问题、行业、生意,实现利益最大化的单一目的。行业数据科学家得擅长沟通,能够让他们的发现应用于商业。将工商、经济和会计方面的经验应用在商业领域是他的价值所在。与商业分析师和商业顾问的角色有点相似。
要成为一名数据科学家,需要掌握哪些核心技能?
作为一名数据科学家,一般需要编程和数据库、数学&统计、交流和可视化、领导力和软技能:四个方面的技能。
1、编程和数据库
一般来说,数据科学家大多要求具备编程、计算机科学相关的专业背景,掌握对处理大数据所必需的Hadoop、Mahout等大规模并行处理技术与机器学习相关的技能。一般能利用python熟练的获取数据,整理数据,并会使用matplotlib展现数据。
2、数学、统计和数据挖掘
除了数学、统计方面的素养之外,还需要具备使用SPSS、SAS等主流统计分析软件的技能。其中,面向统计分析的开源编程语言及其运行环境「R」最近备受瞩目。R的强项不仅在于其包含了丰富的统计分析库,而且具备将结果进行可视化的高品质图表生成功能,并可以通过简单的命令来运行。此外,它还具备称为CRAN(The Comprehensive R Archive Network)的包扩展机制,通过导入扩展包就可以使用标准状态下所不支持的函数和数据集。
3、数据可视化
信息的质量很大程度上依赖于其表达方式。对数字罗列所组成的数据中所包含的意义进行分析,开发Web原型,使用外部API将图表、地图、Dashboard等其他服务统一起来,从而使分析结果可视化,这是对于数据科学家来说十分重要的技能之一。
4、领导力和软技能
数据科学家不仅要具有黑客的头脑,对数据有好奇心,还要对商业有热情,是有影响力、有创造力,能解决问题的人。
总之,数据科学家之所以被称为「科学家」,而区别于「数据工程师」和「数据分析师」,其根本在于对数据有极端敏锐的直觉和本质的认知,对问题和业务有深入的洞察和理解,因而能够解决复杂数据带来的问题。
总结
在过去,对于「信息技术」,我们通常只关注「T」- 技术、硬件,因为这是切实可见的东西。现在,我们需要把目光放在「I」- 信息上,它不是那么切实可见,但某种程度上却更加重要。
在人类永无止境的探索过程中,我们可以从我们能收集的信息中,来了解这个世界,以及人类在这个世界中所处的地位。
这就是为什么大数据如此重要。
这也是数据科学家工作的意义。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-12以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-11