
Kaggle机器学习大调查:中国从业者平均25岁,博士工资最高,最常使用Python
笔者按:Kaggle 是互联网上最著名的数据科学竞赛平台之一,用户数量超过了100 万人。最近,这一社区首次进行了机器学习/数据科学现状调查,向我们提供了有关从业者人群、业界最新动态以及如何进入该行业的洞见。
在超过 16,000 名从业者的详尽答卷中,我们可以一窥目前业内的发展趋势。
报告包括以下重点内容:
Python可能是当前最常使用的机器学习工具,但更多的统计学家仍然用R语言。
总体来说数据科学家平均年龄在30岁左右,但随着不同国家这个具体数值也在变化,例如,印度的受访者总体比澳大利亚平均年龄小9岁。
受访者学历占比最多的似乎是硕士,但是工资最高的(年薪150K以上)则更多是博士学位获得者。
雷锋网编译和解读报告内容如下,后台回复关键词“Kaggle调查”获取。
一、数据工作者是什么样的?
观察数据从业者的方式有很多,但本文将从人口统计学信息也就是数据科学从业者的工作和背景开始。
你的年龄是?
如图可见,本次调查对象的平均年龄大约 30 岁,但这个值在各个国家之间有变动。中国机器学习从业者年龄分布较为集中在20-45之间,中位数年龄非常年轻,在25岁左右,而美国的年龄分布则较为广泛,从图表上看起来,不乏百岁长者和稚子。
你目前的就业状况如何?
受调查者中,有 65.7% 表示自己有全职工作。但当将国籍选定为中国之后,这一数字的比例下降到53.5%。
你的职位是什么?
我们发现,数据科学领域可涵盖的工作非常多。比如在伊朗和马来西亚,数据科学从业者最流行的工作头衔是「科学家或者研究者」。在中国,最流行的头衔前三位是“机器学习工程师”、“数据分析师“以及”数据科学家“。
你的全职年薪是多少?
中位数$55,441,不过由于很多人没有全职工作,所以这一数字不见得准确。
就平均收入来说,美国的机器学习从业者薪资最高,年薪11万美元。中国则明显低于这个数字,平均不到$30K.印度则只有$11K,
你的最高学历是什么?
总体来说,数据科学从业者中最普遍的学历是硕士,但是获取最高薪水($150K - $200K 和 $200k+)的那些人多是有着博士学位。
中国的机器学习从业者学历以本科(39.5%)和硕士(40.5)为主,博士学历仅占比11.2%。美国对应的学历百分比则分别为26.5%,44.5%,和20.7%。
总体来说,被调查者的平均水平是数据科学家职称,30 岁左右,硕士学历,年薪$55,000 左右。但实际情况并不如此平均。这些最初的几个人口统计学问题只是展示了复杂的 Kaggle 数据科学社区在年龄、性别、国籍、工作职称、薪水、经验和学历方面的表层差异。
二、数据科学家的工作内容是什么?
我们把数据科学家定义为写代码以分析数据的一群人。他们的日常工作内容是什么?以下是我们的调查结果。
这一部分的问题受访者不再以国籍分类, 而是以所在公司规模、行业等。
工作中你使用什么数据科学方法?
Logistic 回归是工作之中最为常用的数据科学方法,不过军事领域和国家安全领域中神经网络使用则更为频繁。
总的来说,数据科学中更常见的还是使用经典的机器学习算法,简单的线性与非线性分类器是数据科学中最常见的算法,而功能强大的集成方法也十分受欢迎。我们看到目前神经网络模型的使用频率要高于支持向量机,这可能是近来多层感知机要比使用带核函数的 SVM 更加广泛的表现。
工作中你使用最多的工具语言是什么?
Python 是数据科学家最常用的语言,也是最常用的数据分析工具。不过,还有很多数据科学家对R 语言仍保持着较高忠诚度。
在工作中你常用的数据类型是什么?
关系型数据是开发者在工作中最常用的数据类型,大多数产业工程师都十分关注。而学术研究者和国防安全产业则更关注文本与图像。
如何分享工作中的代码?
超过一半数据工作者(58.4%)使用Git分享代码。不过,大公司的工作者更喜欢将代码保留在本地,并将代码用邮件分享。而初创公司可能需要在云中共享以保持更加敏捷的反应。
工作中遇到的障碍主要是什么?
脏数据(dirty data)以占据接近一半的比例位列第一,脏数据(Dirty Read)是指源系统中的数据不在给定的范围内或对于实际业务毫无意义,也就是说数据科学家一般最常见的困扰就是需要对数据进行大量的预处理工程。
紧随其后的是“缺乏数据科学天赋”、“缺乏资金和管理支持”“缺乏一个能明确回答的问题”以及“数据不可用或无法获取”。
值得注意的一点是,当调整公司规模到中小型企业,“缺乏资金组建数据团队”这一选项立刻跃居第三。看来资金和人才始终是创业公司面对的一大难题。这也意味着新的数据科学家很幸运。他们进入了一个抢手的行业。
三、数据科学家新手如何入行?
寻求新的职业发展时,看看别人的成功秘诀往往很有帮助。我们调查了在数据科学行业工作的人们,询问他们是如何“成功”的。以下是我们觉得较好的几条建议:
你建议数据科学家新手最先学哪门语言?
每一位数据科学家对于如何选择第一门语言都有自己的想法。事实证明,那些使用 Python 或 R 语言的人们做出了正确的选择。不过如果你问一下使用过 R 和 Python 的人们,他们推荐 Python 给你的概率可能会大两倍。
你们使用哪些数据科学学习资源?
数据科学是一个快速变化的领域,有很多有价值的资源可以帮助你学习并保持业内顶尖的位置,从而不断提升自己的竞争力。已经在数据科学领域中工作的人更多使用 Stack Overflow Q&A,Conferences 和 Podcasts,以在这个新人辈出的行业保持与时俱进。如果想要发布内容或开源软件,请记住,刚进入这个领域的人们通常更多使用官方的文档和观看 Youtube 视频。
你们在哪里获取开源数据?
没有数据,就没有数据科学。当需要学习数据科学技巧的时候,知道如何找到干净的开源数据集用于练习和开发项目相当重要。我们很高兴的得知,我们的数据集聚合器(dataset aggregators):https://www.kaggle.com/datasets 正发展为数据科学社区成员中最频繁使用的工具。
你们怎么找工作,以及怎么找到的?
找工作的时候你可能会到公司网站上,或寻找指定技术方向的招聘信息,但是根据已经在数据科学领域工作的人们的经验,这些方式是最差的选择。而通过建立自己在这个行业的关系网络、直接联系招聘者或建立自己的网络以进入这个领域才是他们的首选。
注:少于 50 名受访者的组别被合并进了「Other」类中。其中一些柱状图为了美观而做了缩放处理,希望查看所有问题和结果的原始数据可访问源网页查看。原报告后台回复关键词“Kaggle调查”获取。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
LSTM 模型输入长度选择技巧:提升序列建模效能的关键 在循环神经网络(RNN)家族中,长短期记忆网络(LSTM)凭借其解决长序列 ...
2025-07-11CDA 数据分析师报考条件详解与准备指南 在数据驱动决策的时代浪潮下,CDA 数据分析师认证愈发受到瞩目,成为众多有志投身数 ...
2025-07-11数据透视表中两列相乘合计的实用指南 在数据分析的日常工作中,数据透视表凭借其强大的数据汇总和分析功能,成为了 Excel 用户 ...
2025-07-11尊敬的考生: 您好! 我们诚挚通知您,CDA Level I和 Level II考试大纲将于 2025年7月25日 实施重大更新。 此次更新旨在确保认 ...
2025-07-10BI 大数据分析师:连接数据与业务的价值转化者 在大数据与商业智能(Business Intelligence,简称 BI)深度融合的时代,BI ...
2025-07-10SQL 在预测分析中的应用:从数据查询到趋势预判 在数据驱动决策的时代,预测分析作为挖掘数据潜在价值的核心手段,正被广泛 ...
2025-07-10数据查询结束后:分析师的收尾工作与价值深化 在数据分析的全流程中,“query end”(查询结束)并非工作的终点,而是将数 ...
2025-07-10CDA 数据分析师考试:从报考到取证的全攻略 在数字经济蓬勃发展的今天,数据分析师已成为各行业争抢的核心人才,而 CDA(Certi ...
2025-07-09【CDA干货】单样本趋势性检验:捕捉数据背后的时间轨迹 在数据分析的版图中,单样本趋势性检验如同一位耐心的侦探,专注于从单 ...
2025-07-09year_month数据类型:时间维度的精准切片 在数据的世界里,时间是最不可或缺的维度之一,而year_month数据类型就像一把精准 ...
2025-07-09CDA 备考干货:Python 在数据分析中的核心应用与实战技巧 在 CDA 数据分析师认证考试中,Python 作为数据处理与分析的核心 ...
2025-07-08SPSS 中的 Mann-Kendall 检验:数据趋势与突变分析的有力工具 在数据分析的广袤领域中,准确捕捉数据的趋势变化以及识别 ...
2025-07-08备战 CDA 数据分析师考试:需要多久?如何规划? CDA(Certified Data Analyst)数据分析师认证作为国内权威的数据分析能力认证 ...
2025-07-08LSTM 输出不确定的成因、影响与应对策略 长短期记忆网络(LSTM)作为循环神经网络(RNN)的一种变体,凭借独特的门控机制,在 ...
2025-07-07统计学方法在市场调研数据中的深度应用 市场调研是企业洞察市场动态、了解消费者需求的重要途径,而统计学方法则是市场调研数 ...
2025-07-07CDA数据分析师证书考试全攻略 在数字化浪潮席卷全球的当下,数据已成为企业决策、行业发展的核心驱动力,数据分析师也因此成为 ...
2025-07-07剖析 CDA 数据分析师考试题型:解锁高效备考与答题策略 CDA(Certified Data Analyst)数据分析师考试作为衡量数据专业能力的 ...
2025-07-04SQL Server 字符串截取转日期:解锁数据处理的关键技能 在数据处理与分析工作中,数据格式的规范性是保证后续分析准确性的基础 ...
2025-07-04CDA 数据分析师视角:从数据迷雾中探寻商业真相 在数字化浪潮席卷全球的今天,数据已成为企业决策的核心驱动力,CDA(Certifie ...
2025-07-04CDA 数据分析师:开启数据职业发展新征程 在数据成为核心生产要素的今天,数据分析师的职业价值愈发凸显。CDA(Certified D ...
2025-07-03