数据科学家与数据工程师
数据科学家和数据工程师的主要区别,可以用ETL和DAD的区别来解释。
ETL(提取/变换/载入)是数据工程师,还有数据架构师或数据库管理员(DBA)的职责。
DAD(发现/获取/提炼)是数据科学家的职责。
数据工程师往往把重点放在软件工程、数据库设计、生产环境代码上,并确保数据在来源(在那里它被收集)和目的地之间平稳地流动(在目的地那里通过统计摘要提取和处理,或通过数据科学算法产生结果,并最终转移到源或其他地方)。数据科学家却需要了解数据的流动和如何优化(尤其是使用Hadoop时)。实际上不是优化数据流本身,而是数据处理的步骤,从数据中提取出价值。数据科学家与工程师和商业人员一起工作,定义指标、设计数据收集方案,并确保数据科学流程与企业数据系统(存储、数据流)有效地集成。对于在小公司工作的数据科学家,尤其如此,这也是数据科学家应该能编写可被工程师重复使用的代码的原因。
有时数据工程师也操作DAD,有时数据科学家也操作ETL,但这并不常见,且他们通常是在公司内部才这么做。例如,数据工程师可以做一些统计分析,以优化一些数据库流程,而数据科学家可以做一些数据库管理,以管理一个保存汇总信息的、小型的、本地的私有数据库。
DAD包含以下内容。
发现:识别良好的数据源和指标。有时(与数据工程师和业务分析师一起工作),对应该创建的数据提出需求。
获取:获取数据,有时通过API、网络爬虫、互联网下载或数据库,有时是从内存数据库获取数据。
提炼:从数据中提取信息,做出决策,增加投资回报率,并采取行动(比如,在自动投标系统中,确定最佳的投标价格)。它包括以下内容。
— 通过创建数据字典和进行探索性分析,对数据进行探索。
— 清洗数据杂质。
— 通过数据汇总进一步提炼数据,有时是通过多层汇总或分层汇总来实现的。
— 对数据进行统计分析(有时会采取像实验设计这样的做法,所以在前面的“获取”阶段也可以进行),自动和手动都可以。可能需要设计统计模型,也可能不需要。
— 在某些自动过程中呈现结果或集成结果。
数据科学是计算机科学、商业工程、统计学、数据挖掘、机器学习、运筹学、六西格玛、自动化和行业知识的交叉点。这些不同的领域,加上业务的愿景和行动,汇集了一系列的技术、流程和方法。数据科学是连接不同组件的过程,有助于业务优化,并消除那些降低业务效率的孤岛。它也有自己独特的核心,(例如)包括以下主题。
高级可视化。
分析即服务(AaaS)和API服务。
大规模数据集的聚类与分类。
计算大数据的相关性和R平方。
快速特征选择。
Hadoop/Map-Reduce。
网络拓扑。
大数据中关键词的相关性。
在常规空间、超平面、球面上或单纯形上的线性回归。
无模型置信区间。
特征的预测能力。
无模型的统计建模。
大数据“诅咒”。
MapReduce不能做的事。
请记住,一些雇主寻找的是具备丰富统计知识的Java或数据库开发人员。这些开发人员是非常罕见的,所以雇主反而有时会试图雇用数据科学家,但希望他在开发生产代码方面很优秀。所以职位到底是需要具备统计知识的Java开发者,还是具有较强的Java技术的统计学家,你应该事先询问雇主(如果可能的话,在电话面试的过程中去询问)。然而,有时招聘经理不知道他真正想要的是什么,如果你告诉他你的专业知识所带来的附加价值,你可能会说服他雇用你,哪怕欠缺他们预期的某些技能。对于雇主,招聘Java软件工程师,再要他们学习统计学,比反过来更容易。
数据科学家与统计学家
许多统计学家认为,数据科学是关于分析数据的,但它远不止分析数据。数据科学还涉及实现算法、自动处理数据,并提供自动化的预测和行动,比如:
分析美国宇航局的照片,以寻找新的行星或小行星。
自动报价系统。
自动驾驶(飞机和汽车)。
在Amazon.com或Facebook上推荐书和朋友。
针对所有酒店客房的客户定制(实时)定价系统。
在计算化学中模拟用于癌症治疗的新分子。
流行病的早期检测。
(实时)估计美国所有房屋的价值(Zillow.com)。
高频交易。
为用户和网页匹配谷歌广告,以最大限度地提高转化率。
为所有谷歌搜索返回高度相关的结果。
信用卡交易评分(欺诈检测)。
税收欺诈检测与恐怖行为检测。
天气预报。
所有这些都涉及统计科学和TB级的数据。大多数做这些类型的项目的人,并不称自己为统计学家。他们称自己为数据科学家。
几个世纪以来,统计学家一直在收集数据并进行线性回归分析。300年前、20年前、现在或在2015年由统计学家进行的DAD,跟如今数据科学家进行的DAD大相径庭。关键是,最终随着越来越多的统计学家学会这些新技术,而更多的数据科学家学会统计科学知识(采样、实验设计、置信区间——不只是第5章中描述的那些),数据科学家和统计学家之间的边界将变得更加模糊。事实上,我可以看到另一种数据科学家正在兴起:具备深厚统计知识的数据科学家。
数据科学家和计算机科学家的区别是,数据科学家有更强大的统计学背景,特别是在计算统计方面,但有时则是在实验设计、采样和蒙特卡洛模拟方面。
数据科学家与业务分析师
业务分析师专注于数据库设计(高层次的数据库建模,包括指标定义、仪表盘设计、检索和生成管理报告,并设计报警系统)、评估各种业务项目和支出的投资回报率及预算问题。一些业务分析师从事营销或财务的规划、优化和风险管理工作。许多业务分析师从事高层次的项目管理工作,直接向公司主管汇报。
有些任务也由数据科学家完成,特别是在较小的公司:指标的创建和定义、高层次的数据库设计(收集什么样的数据以及如何收集),或计算营销,甚至增长黑客(最近创造的一个词,来形容一种角色,它能够快速增加公司互联网访问流量,扩大公司或产品的影响力,这种工作涉及较强的工程和分析技能)。
数据科学家让业务分析师有提升空间,例如,帮助将报表制作过程自动化,使数据提取速度更快。数据科学家还可以教给业务分析师FTP和基础的UNIX指令知识:ls -l、rm -i、head、tail、cat、cp、mv、sort、grep、uniq -c及管道和重定向操作符(|, >)。然后,可以在数据库服务器上编程或安装一段代码(业务分析师通常是通过浏览器或工具,如Toad或Brio访问服务器),以检索数据。所有的业务分析师都必须做的是:
1.创建SQL查询(甚至要有可视化工具),并保存为SQL文本文件。
2.将它上传到服务器并运行程序(例如,一个Python脚本,读取SQL文件并执行它,检索数据,并将结果存储在CSV文件中)。
3.输出结果(CSV文件)到业务分析师的电脑中,做进一步分析。
对于业务分析师和数据科学家,这样的合作是双赢的。在实践中,这样的合作已经帮助业务分析师提取的数据比他们过去所使用的数据要大100倍,而且提取速度快10倍。
总之,数据科学家并不是业务分析师,但前者可以极大地帮助后者,包括帮助业务分析师将任务自动化。此外,如果数据科学家能带来额外的价值,具备额外的经验,他更容易找到工作,特别是在只有一个职位预算的公司,当雇主不能确定是雇用业务分析师(开展整体分析和数据任务)还是数据科学家(有商业头脑,可以执行一些通常分配给业务分析师的任务)时。在一般情况下,业务分析师是优先聘请的,但如果数据和算法变得过于复杂,也会雇用数据科学家。如果你创建自己的创业公司,你需要扮演两个角色:数据科学家和业务分析师。
13个真实世界情景中的数据科学应用
现在让我们看看13个在真实世界情景下的例子,了解现代数据科学家可以帮助我们做些什么。这些例子将有助于你学习如何专注于一个问题和如何形式化一个问题,以及如何仔细评估所有潜在问题——总之,是学习数据科学家在提出解决方案之前,如何定位问题和进行战略性思考。你也会看到为什么一些广泛使用的技术,如标准回归,可能并不适合所有情况。
数据科学家的思维方式不同于工程师、运筹学专业人士、计算机科学家。虽然运筹学涉及很多分析,但这一领域的焦点是具体业务优化层面,如库存管理和质量控制。运筹学涉及国防、经济、工程、军事等领域。它采用马尔可夫模型、蒙特卡洛模拟、排队论、随机过程,以及(由于历史原因)Matlab和Informatica工具。
数据科学会遇到两种基本类型的问题。
1.内部数据科学问题,如损坏的数据、粗心的分析或使用不恰当的技术。内部问题不是针对业务而言,而是针对数据科学社区。因此,解决办法包括训练数据科学家更好地工作,要他们遵循最佳做法。
2.业务应用问题是现实世界中的问题,因此要寻求解决方案,如欺诈检测,或识别一个因素是原因还是结果。这些可能涉及内部或外部(第三方)数据。
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16