作者 | Mohammad Shahebaz
来源 | 图灵TOPIA
本文作者Shahebaz,毕业于JNTUH大学电子与通信工程学院。他最近在Kaggle比赛中获得了4枚银牌和1枚金牌奖牌,并且拥有31 枚讨论金牌,他现在是其所在国家(印度)最年轻(21岁)的Kaggle X2 Master。
他表示,介绍进入数据科学领域所需技能的文章有很多,分享成功经验和意见的访谈也不少。但很少能找到文章具体介绍他们是如何开始自己的数据科学之旅的。所以,近期他在Medium上撰文分享了自己的成长经验。
他表示,刚开始的时候,自己也是个菜鸟,对很多知识并不是很擅长;并且,数学也从来不是自己最喜欢的科目。然而,今天他却很热爱这个领域。。。
以下是文章具体内容:
少有人走的路
我是最近才开始参加比赛的,并且在过去的9个月中,在各种比赛中赢得了一堆奖牌。这听起来是不是挺神奇的?
我曾经特别害怕参加Kaggle比赛,因为 - 觉得它们很难!
那么,这一切是从什么时候开始改变的呢?
2017年,作为Oppia.org的会员和活跃撰稿人,为了更好地工作,我开始学习Python 2.7。
后来我学会了所谓的“过时”的 Python2.7版本,但是又不得不重新学习Python 3。
我几乎无法创建列表或add/join字符串,那时我也只是一名新手程序员。
我在开源贡献期间学习了编程,使用git进行软件版本控制,以及意识到了良好结构和文档化代码的重要性。
有一天,我正在搜索Python 2.7还能做什么的时候,浏览了一下互联网并登陆了Kaggle。著名的Kaggle 声明(statement)正盯着我,读完问题声明后,我惊奇地盯着屏幕。
“在这次挑战中,我们要求您完成对哪些人可能存活的分析”
当我读到这个。我感觉到了像追星族般的惊奇。预测幸存的人?这是什么样的黑魔法?我甚至立刻检查了Kaggle网站的真实性,第二个惊奇的时刻就是我意识到 -
数据科学听起来像是21世纪非常真实的科幻技术!
就像一部科幻电影突然在我的现实生活中出现,它的概念对我来说完全陌生。
我决定让自己进入这个领域。而对数据科学学习的热情一直在我身上保持。(老实说,即使今天也没有任何消减)
我是如何学习的?推荐资源!
▲选择的悖论——越多越少
如今,网上有很多课程。通过谷歌搜索 - “如何成为数据科学家” ,你就会得到许多结果,也就很容易陷入选择的悖论。这种感觉就像在餐馆里从琳琅满目的选择中选择一道美味的开胃菜。就本文的范围而言,我将列出我最喜欢的几本书。
Python推荐
如果您使用Python编写代码并且您的技能处于中间水平,则本书应该放在您的书架上。
《Python的数据结构和算法》由Michael T. Goodrich,Roberto Tamassia,Michael H. Goldwasser 撰写。
▲《Python中的数据结构和算法》
本书深入探讨了Python中的OOP,数据结构和算法的概念。我喜欢本章每一节的练习。在制作需要优化和格式化编码的车库项目时,我仍然将其用于日常参考。
着手机器学习基础知识
结束Python基础知识之后。我买了几本关于机器学习的书,我推荐这本书;
▲《用Python学习机器学习》
《用Python学习机器学习》,作者是Andreas C. Müllerand Sarah Guido
它涉及机器学习的基础知识,由scikit-learn的创始人自己编写,它是一本完整的初学者入门书。
读这本书让我非常熟悉scikit-learn,我最终还在官方的scikit-learn存储库中推了几个PR。
但是,如果您熟悉数据科学并已进入任何机器学习竞赛的前20%,您会发现上述的书挺无聊的。但是,如果你仔细阅读,肯定有一些方便的技巧和方法可以帮助你在比赛中获得优势。
另一本比MOOC更值得推荐的书是《Introduction to Statistical Learning with Applications in R》
如果我是一名面试官,我会找一个在理论和实践中理解ISLR的人。
▲《ISLR》
这本书是关于R语言的。但是,我仍然十分推荐它。
通常在研究背景下,对于想要深入挖掘并达到统计核心的人来说,《统计学习的要素》是非常推荐的一本书。ISLR和ESL这两本书都是可以免费下载的。因此,您不必破费,就可以获得免费的机器学习知识。
▲《统计学习的要素》
人们经常问我 - 你学习机器学习的MOOC是什么?
答案是None。
我发现在线课程没有效果。至少,我注册的那些没有效果。有以下几个原因:
这并不意味着我讨厌MOOC。事实上,我计划在今年完成一些工作。我建议你把基础打牢,而不是专注于观看只针对单一课程的视频内容。阅读书籍和资源肯定扩展了我对某些概念的认识,我现在可以从不同的角度来解释这些概念。
初学者的生活
我经常在LinkedIn上收到想要从事数据科学的人发来的信息。但痛苦的现实是,根据你之前所做的,学习曲线并不陡峭。我会让你从我的经历中走出来。
这是我当时的问题:
1、如何开始使用数据科学?
2、我完成了一堆算法。接下来做什么?
3、如何找到工作并搞定数据科学面试?
4、做Kaggle值得吗?比赛会有所作为吗?
我非常渴望得到这些问题的答案!
现在,我已经通过了系统的学习,可以用一句话回答你:事情没那么简单,这很复杂。
部分原因是术语—数据分析师、数据科学家和ML工程师是三个不同的头衔。这份工作的性质因公司而异。
数据分析师有时只能执行SQL查询,或者构建模型或进行业务分析。有时他们也会成为项目经理。
数据科学家有时制作基本模型,其他角色需要博士学位。研究工作和很少的其他工作需要在大型系统上进行模型调优和部署。
ML Engineer是融合了数据科学知识的软件工程专业知识
问题是……
您的梦想数据科学工作没有固定的职位描述。
许多公司仍在搞清楚“究竟什么属于数据科学,应该关注哪些问题”。在这种情况下,你的学习必须是连续的,而不是受MOOC课程时间限制的,这一点变得非常重要。
追随你的激情,解决问题。比如从你的Android手机上收集数据,汇总推文研究你最喜欢的演员的粉丝,在《复仇者联盟3:无限战争》中应用奇怪的机器学习案例等等。
▲我的图像说明项目
想象力是无限的,ML也有无限的可能性。现在让我们来探索成为一名更好的数据科学家的能力技能。
数据科学爱好者的目标清单
该列表适用于数据科学家角色,但是如果您申请领域特定的角色,则可能需要更多的技能。
1. 掌握统计和概率:比较容易,这项技能数据科学领域的面包和黄油。我强烈推荐面包优先的方法,除非你是写研究论文或在学术界的角色。
在现实世界中,虽然在编写代码时不会经常使用stats知识。但是,掌握好stas知识不仅能让你成为更好的数据科学家,还能帮助你做出关键决定。
2. 参与数据科学竞赛:主要是学习不一定非要赢比赛。我明白在比赛中获胜并且赢得奖金听起来有利可图。我花了100多场比赛才进入我的第一个50强排行榜。没有人从第一天开始就是赢家。比赛将帮助您在竞争激烈的世界中回顾自己的成长。
3.你的项目是你自己最好的代言人:使您的GitHub配置文件保持活跃并完成至少2-3个项目,包括文档的最终实现。虽然比赛是应用你的技能的一种方式,但是对他们的反对声很大。
比赛并不是现实世界数据科学任务的同义词。他们就像在一家五星级餐厅品尝现成的拼盘。
从头开始贡献或处理项目将使您在实际数据科学任务中获得经验,这些任务才被认为是最重要的。
数据科学&其他
如果你正在寻找一个职位,如果职位描述要求你全能:既要求你是数据科学家又要有8-10年“spark”经验。
赶紧跑吧!(Spark是2011年推出的!)
有很多公司只是因为媒体炒作或者人云亦云的趋势而想要去推动数据科学。
有时候,他们需要的只是.groupby(),而不是机器学习。
未来的工作角色将会大不相同。作为一名数据科学家,请确定您想要进入的领域。目标是你在那个领域的项目和竞赛。
招聘人员更倾向于雇佣已经从事过公司目前正在从事的工作的人。
假设你要去一家餐厅吃海德拉巴Biryani。你会喜欢一个刚刚在YouTube上看过菜谱的新厨师,还是喜欢一家专门制作正宗海德拉巴Biryani的餐厅?公司也是如此。他们想要的是一个有经验的人。
例如:我经常坚持参加金融领域和NLP的竞赛。这是我几个月前接受采访时最大的优势。我可以问更多与领域相关的问题,了解公司目前正在进行哪些项目,以及我认为自己适合哪些领域。
毕竟,比工作更重要的是,可以在你最喜欢的项目度过每个星期一上午。
写在最后
我遇到了这样一个奇妙的场景,实际上是一个极端的场景。想象一下,如果Tensorflow消失了会怎样?
您意识到您不再是数据科学家和ML工程师了!
这个想象很有趣但也合法。
未来可能会有一些新的工具和数据科学库。曾经XGBoost是商业机密算法,现在它完全开源。明天,其他一些工具将改变数据游戏。
AutoML已经在引领下一代数据科学解决方案。我亲自从H2O.ai中找到无人驾驶 AI !
当重复性任务自动化时,业界总会出现问题。让自己了解并学习核心技能,而不是少数库的语法。探索:
你需要让自己时刻保持学习和成长。
打个比方,如果您自己不进行.transform()和.fit()改进,那么您将成为一个under fit分类器~
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-12以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-11随着数字化转型的加速,企业积累了海量数据,如何从这些数据中挖掘有价值的信息,成为企业提升竞争力的关键。CDA认证考试体系应 ...
2025-03-10