Kaggle机器学习大调查:中国从业者平均25岁,博士工资最高,最常使用Python
笔者按:Kaggle 是互联网上最著名的数据科学竞赛平台之一,用户数量超过了100 万人。最近,这一社区首次进行了机器学习/数据科学现状调查,向我们提供了有关从业者人群、业界最新动态以及如何进入该行业的洞见。
在超过 16,000 名从业者的详尽答卷中,我们可以一窥目前业内的发展趋势。
报告包括以下重点内容:
Python可能是当前最常使用的机器学习工具,但更多的统计学家仍然用R语言。
总体来说数据科学家平均年龄在30岁左右,但随着不同国家这个具体数值也在变化,例如,印度的受访者总体比澳大利亚平均年龄小9岁。
受访者学历占比最多的似乎是硕士,但是工资最高的(年薪150K以上)则更多是博士学位获得者。
雷锋网编译和解读报告内容如下,后台回复关键词“Kaggle调查”获取。
一、数据工作者是什么样的?
观察数据从业者的方式有很多,但本文将从人口统计学信息也就是数据科学从业者的工作和背景开始。
你的年龄是?
如图可见,本次调查对象的平均年龄大约 30 岁,但这个值在各个国家之间有变动。中国机器学习从业者年龄分布较为集中在20-45之间,中位数年龄非常年轻,在25岁左右,而美国的年龄分布则较为广泛,从图表上看起来,不乏百岁长者和稚子。
你目前的就业状况如何?
受调查者中,有 65.7% 表示自己有全职工作。但当将国籍选定为中国之后,这一数字的比例下降到53.5%。
你的职位是什么?
我们发现,数据科学领域可涵盖的工作非常多。比如在伊朗和马来西亚,数据科学从业者最流行的工作头衔是「科学家或者研究者」。在中国,最流行的头衔前三位是“机器学习工程师”、“数据分析师“以及”数据科学家“。
你的全职年薪是多少?
中位数$55,441,不过由于很多人没有全职工作,所以这一数字不见得准确。
就平均收入来说,美国的机器学习从业者薪资最高,年薪11万美元。中国则明显低于这个数字,平均不到$30K.印度则只有$11K,
你的最高学历是什么?
总体来说,数据科学从业者中最普遍的学历是硕士,但是获取最高薪水($150K - $200K 和 $200k+)的那些人多是有着博士学位。
中国的机器学习从业者学历以本科(39.5%)和硕士(40.5)为主,博士学历仅占比11.2%。美国对应的学历百分比则分别为26.5%,44.5%,和20.7%。
总体来说,被调查者的平均水平是数据科学家职称,30 岁左右,硕士学历,年薪$55,000 左右。但实际情况并不如此平均。这些最初的几个人口统计学问题只是展示了复杂的 Kaggle 数据科学社区在年龄、性别、国籍、工作职称、薪水、经验和学历方面的表层差异。
二、数据科学家的工作内容是什么?
我们把数据科学家定义为写代码以分析数据的一群人。他们的日常工作内容是什么?以下是我们的调查结果。
这一部分的问题受访者不再以国籍分类, 而是以所在公司规模、行业等。
工作中你使用什么数据科学方法?
Logistic 回归是工作之中最为常用的数据科学方法,不过军事领域和国家安全领域中神经网络使用则更为频繁。
总的来说,数据科学中更常见的还是使用经典的机器学习算法,简单的线性与非线性分类器是数据科学中最常见的算法,而功能强大的集成方法也十分受欢迎。我们看到目前神经网络模型的使用频率要高于支持向量机,这可能是近来多层感知机要比使用带核函数的 SVM 更加广泛的表现。
工作中你使用最多的工具语言是什么?
Python 是数据科学家最常用的语言,也是最常用的数据分析工具。不过,还有很多数据科学家对R 语言仍保持着较高忠诚度。
在工作中你常用的数据类型是什么?
关系型数据是开发者在工作中最常用的数据类型,大多数产业工程师都十分关注。而学术研究者和国防安全产业则更关注文本与图像。
如何分享工作中的代码?
超过一半数据工作者(58.4%)使用Git分享代码。不过,大公司的工作者更喜欢将代码保留在本地,并将代码用邮件分享。而初创公司可能需要在云中共享以保持更加敏捷的反应。
工作中遇到的障碍主要是什么?
脏数据(dirty data)以占据接近一半的比例位列第一,脏数据(Dirty Read)是指源系统中的数据不在给定的范围内或对于实际业务毫无意义,也就是说数据科学家一般最常见的困扰就是需要对数据进行大量的预处理工程。
紧随其后的是“缺乏数据科学天赋”、“缺乏资金和管理支持”“缺乏一个能明确回答的问题”以及“数据不可用或无法获取”。
值得注意的一点是,当调整公司规模到中小型企业,“缺乏资金组建数据团队”这一选项立刻跃居第三。看来资金和人才始终是创业公司面对的一大难题。这也意味着新的数据科学家很幸运。他们进入了一个抢手的行业。
三、数据科学家新手如何入行?
寻求新的职业发展时,看看别人的成功秘诀往往很有帮助。我们调查了在数据科学行业工作的人们,询问他们是如何“成功”的。以下是我们觉得较好的几条建议:
你建议数据科学家新手最先学哪门语言?
每一位数据科学家对于如何选择第一门语言都有自己的想法。事实证明,那些使用 Python 或 R 语言的人们做出了正确的选择。不过如果你问一下使用过 R 和 Python 的人们,他们推荐 Python 给你的概率可能会大两倍。
你们使用哪些数据科学学习资源?
数据科学是一个快速变化的领域,有很多有价值的资源可以帮助你学习并保持业内顶尖的位置,从而不断提升自己的竞争力。已经在数据科学领域中工作的人更多使用 Stack Overflow Q&A,Conferences 和 Podcasts,以在这个新人辈出的行业保持与时俱进。如果想要发布内容或开源软件,请记住,刚进入这个领域的人们通常更多使用官方的文档和观看 Youtube 视频。
你们在哪里获取开源数据?
没有数据,就没有数据科学。当需要学习数据科学技巧的时候,知道如何找到干净的开源数据集用于练习和开发项目相当重要。我们很高兴的得知,我们的数据集聚合器(dataset aggregators):https://www.kaggle.com/datasets 正发展为数据科学社区成员中最频繁使用的工具。
你们怎么找工作,以及怎么找到的?
找工作的时候你可能会到公司网站上,或寻找指定技术方向的招聘信息,但是根据已经在数据科学领域工作的人们的经验,这些方式是最差的选择。而通过建立自己在这个行业的关系网络、直接联系招聘者或建立自己的网络以进入这个领域才是他们的首选。
注:少于 50 名受访者的组别被合并进了「Other」类中。其中一些柱状图为了美观而做了缩放处理,希望查看所有问题和结果的原始数据可访问源网页查看。原报告后台回复关键词“Kaggle调查”获取。
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16