数据科学家:站在大数据金字塔尖的人
现在的互联网行业,越来越多的企业对数据科学家求贤若渴。
虽然数据科学家的需求一直在快速增长,但事实是在业内还没有对数据科学家的准确定义。有人开玩笑说,「数据科学家就是住在硅谷的数据分析师」,甚至有人画了这样的漫画:
没错,找到一位优秀的数据科学家和找到一个理解数据科学家是做什么的人一样难。
要理解数据科学家是做什么,首先要理解人尽皆知却总被误读的大数据:大数据不是大量的数据,而是复杂的数据。
《大数据时代》联席作者Kenneth Cukier在Ted上的热门演讲: 《Big data is better data》,告诉你大数据驱动技术和设计的未来,以及大数据的「好」与「坏」。
这些解决复杂数据带来的问题的人,就是数据科学家。
数据科学家在工作中是怎样解决问题的呢?
分享两个共享经济的典范:Airbnb和Uber——在运用大数据方面的经验。
1、Airbnb
在Airbnb,工程师要解决这样一个问题:如何让用户了解一个自己从来没去过的地方?如何知道哪个地方最适合自己的旅行?
Airbnb拥有海量的独有数据,包括旅游地、用户评论、房源描述、社区信息等,Airbnb还有一支队伍去各地和当地人交流,搜集所有的相关历史数据。Airbnb的数据科学家是这样运用数据的:
Airbnb accommodations (red) and traditional accommodations (blue) in San Francisco
当用户在搜寻一个住宿的地方时,Airbnb的「location relevance model」会通过Airbnb社区告诉未来的客人哪里是更好的住宿地。
当用户在寻找想体验的新地方时,「Airbnb Neighborhoods」会将当地的内容编辑亲手整理的必备资料和专业的照片呈献给用户。
Airbnb的「discovery team」通过自然语言处理和机器学习来为用户搜索关键词提供更准确的推荐。
Airbnb甚至造了一个叫做「AT-AT」的复杂工具,帮助用户更深入地了解某个地点,包括地理信息无法描述的文化或宗教上的区分。
2、Uber
缩短开着空车去接下一位乘客的时间和乘客等待的时间是Uber的车主和乘客的共同需求,他们希望这些时间越短越好。为此,Uber的数据科学家建立了「Location-based demand models」。
Uber heatmap in San Francisco
每天实时更新的热点地图(Heatmaps)可以有效帮助车主缩短空载时间,同时帮乘客减少等待时长。下一步,这张图甚至可以预测,这样车主会知道提前去哪里等待可以载到更多的乘客。
数据科学家的由来和定义
虽然数据科学三十年前就诞生了,但是数据科学家却是几年前刚出现的一个新词。在《数据之美》一书中,我们可以看到Facebook的数据科学家的起源:
在Facebook,我们发现传统的头衔如商业分析师、统计学家、工程师和研究科学家都不能确切地定义我们团队的角色。该角色的工作是变化多样的:在任意给定的一天,团队的一个成员可以用Python实现一个多阶段的处理管道流、设计假设检验、用工具R在数据样本上执行回归测试、在Hadoop上为数据密集型产品或服务设计和实现算法,或者把我们分析的结果以清晰简洁的方式展示给企业的其他成员。为了掌握完成这多方面任务需要的技术,我们创造了「数据科学家」这种角色。
所以,用一句话总结「数据科学家」的定义:
运用统计分析、机器学习、分布式处理等技术,从大量数据中提取出对业务有意义的信息,以易懂的形式传达给决策者,并创造出新的数据运用服务的人才。
数据科学家有哪几种类别
为了更好地阐释数据科学家,我们将它分为三类:
理论数据科学家致力于数据科学的理论研究,为其他的数据科学家创造框架和工具。本质上是将统计数据、数据存储和计算机科学在理论层面应用于大数据的学者
应用数据科学家对于如何运用大数据有更好的理解。科学需要严谨,我认为数据应用植根于学术严谨,但是在应用层面工作。应用数据科学家的工作是先进行架设,再用大数据进行验证。每个人都会受惠于他们的研究发现和工具。
行业数据科学家用应用数据科学地解决某个具体的市场问题、行业、生意,实现利益最大化的单一目的。行业数据科学家得擅长沟通,能够让他们的发现应用于商业。将工商、经济和会计方面的经验应用在商业领域是他的价值所在。与商业分析师和商业顾问的角色有点相似。
要成为一名数据科学家,需要掌握哪些核心技能?
作为一名数据科学家,一般需要编程和数据库、数学&统计、交流和可视化、领导力和软技能:四个方面的技能。
1、编程和数据库
一般来说,数据科学家大多要求具备编程、计算机科学相关的专业背景,掌握对处理大数据所必需的Hadoop、Mahout等大规模并行处理技术与机器学习相关的技能。一般能利用python熟练的获取数据,整理数据,并会使用matplotlib展现数据。
2、数学、统计和数据挖掘
除了数学、统计方面的素养之外,还需要具备使用SPSS、SAS等主流统计分析软件的技能。其中,面向统计分析的开源编程语言及其运行环境「R」最近备受瞩目。R的强项不仅在于其包含了丰富的统计分析库,而且具备将结果进行可视化的高品质图表生成功能,并可以通过简单的命令来运行。此外,它还具备称为CRAN(The Comprehensive R Archive Network)的包扩展机制,通过导入扩展包就可以使用标准状态下所不支持的函数和数据集。
3、数据可视化
信息的质量很大程度上依赖于其表达方式。对数字罗列所组成的数据中所包含的意义进行分析,开发Web原型,使用外部API将图表、地图、Dashboard等其他服务统一起来,从而使分析结果可视化,这是对于数据科学家来说十分重要的技能之一。
4、领导力和软技能
数据科学家不仅要具有黑客的头脑,对数据有好奇心,还要对商业有热情,是有影响力、有创造力,能解决问题的人。
总之,数据科学家之所以被称为「科学家」,而区别于「数据工程师」和「数据分析师」,其根本在于对数据有极端敏锐的直觉和本质的认知,对问题和业务有深入的洞察和理解,因而能够解决复杂数据带来的问题。
总结
在过去,对于「信息技术」,我们通常只关注「T」- 技术、硬件,因为这是切实可见的东西。现在,我们需要把目光放在「I」- 信息上,它不是那么切实可见,但某种程度上却更加重要。
在人类永无止境的探索过程中,我们可以从我们能收集的信息中,来了解这个世界,以及人类在这个世界中所处的地位。
这就是为什么大数据如此重要。
这也是数据科学家工作的意义。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“最近复购率一直在下降,我们的营销力度不小啊,为什么用户还是走了?” “是不是广告投放的用户质量不高?还是我们的产品问题 ...
2025-02-21以下文章来源于数有道 ,作者数据星爷 SQL查询是数据分析工作的基础,也是CDA数据分析师一级的核心考点,人工智能时代,AI能为 ...
2025-02-19在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-18当数据开始说谎:那些年我们交过的学费 你有没有经历过这样的场景?熬了三个通宵做的数据分析报告,在会议上被老板一句"这数据靠 ...
2025-02-17数据分析作为一门跨学科领域,融合了统计学、编程、业务理解和可视化技术。无论是初学者还是有一定经验的从业者,系统化的学习路 ...
2025-02-17挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-17近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的, ...
2025-02-14一秒精通 Deepseek,不用找教程,不用买资料,更不用报一堆垃圾课程,所有这么去做的,都是舍近求远,因为你忽略了 deepseek 的 ...
2025-02-12自学 Python 的关键在于高效规划 + 实践驱动。以下是一份适合零基础快速入门的自学路径,结合资源推荐和实用技巧: 一、快速入 ...
2025-02-12“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩 ...
2025-02-08活动介绍 为了助力大家在数据分析领域不断精进技能,我们特别举办本期打卡活动。在这里,你可以充分利用碎片化时间在线学习,让 ...
2025-02-071、闺女,醒醒,媒人把相亲的带来了。 我。。。。。。。 2、前年春节相亲相了40个, 去年春节相亲50个, 祖宗,今年你想相多少个 ...
2025-02-06在数据科学的广阔领域中,统计分析与数据挖掘占据了重要位置。尽管它们常常被视为有关联的领域,但两者在理论基础、目标、方法及 ...
2025-02-05在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-02-05当我们只有非常少量的已标记数据,同时有大量未标记数据点时,可以使用半监督学习算法来处理。在sklearn中,基于图算法的半监督 ...
2025-02-05考虑一种棘手的情况:训练数据中大部分样本没有标签。此时,我们可以考虑使用半监督学习方法来处理。半监督学习能够利用这些额 ...
2025-02-04一、数学函数 1、取整 =INT(数字) 2、求余数 =MOD(除数,被除数) 3、四舍五入 =ROUND(数字,保留小数位数) 4、取绝对值 =AB ...
2025-02-03作者:CDA持证人 余治国 一般各平台出薪资报告,都会哀嚎遍野。举个例子,去年某招聘平台发布《中国女性职场现状调查报告》, ...
2025-02-02真正的数据分析大神是什么样的呢?有人认为他们能轻松驾驭各种分析工具,能够从海量数据中找到潜在关联,或者一眼识别报告中的数 ...
2025-02-01现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31