自由数据科学家Arnuld谈数据
埃里克·韦伯(是的,那个长得不错的家伙带着一只可爱的狗)最近在LinkedIn上写了一篇帖子,讲述了当他开始数据科学生涯时,他希望自己能少做的10件事。这篇文章是我通过这十点的旅程。首先,你应该继续阅读他的帖子。下面是截图:
首先,这不是一个“内容”的帖子。
已经有这么多的文章和博客帖子了,所以看看他们。在这里,我们将谈谈你的重点和方向,当你渴望成为一名数据科学家,并得到业界的关注。
是的,这需要你很多时间和精力。这个障碍是你应该马上处理的。一开始我和它作斗争,但几个月后,它就消失了。我把这个突破归因于我的日常阅读习惯。
我一直在阅读LinkedIn上的帖子(尤其是埃里克·韦伯本人的帖子)。此外,我每天读很多来自不同数据科学家和机器学习工程师的博客,读一两个小时或更多。这让我明白了数据科学在工业工作中的重要性:你用你的技能为组织增加了多少价值。通过构建你感兴趣的东西或构建解决问题的东西来定义价值。你通过回答这个问题来选择学什么,它会给你一个关于什么该学什么不该学的想法。
我花了几个月才意识到这一点(我猜是6个月)。我将把这几个月加在一起,看我们可以节省多少时间。
是的,这是另一场斗争,主要是因为以下几个原因:
别上当。不要把工作描述放在心上。大多数“面试琐事”是数据科学的新事物与组织中人才获取、数据科学和软件工程团队之间沟通渠道不畅的结合。与其对此感到不知所措,你需要专注于如何破解它。
解决这个问题的一个方法是通过观察现实。如果你认识任何现实生活中的数据科学家、数据分析师和机器学习工程师(离线的,在物理世界中),和他们谈谈他们的工作将是一个很好的主意。如果你不认识任何人,那么你可以随时查看博客和文章。
我线下不认识这方面的专业人士。所以我通过阅读博客和文章来学习。我所了解到的是,公司会招来很多人参加面试,他们都是“懂”东西的人,但很少有“造”东西的人。因此,专注于构建材料而不是单纯的学习和教育(例如,部署和生产是两件重要的事情)。我花了5-6个月才意识到这一点。
6+6=迄今12个月
啊哈,这是我最喜欢的:-)因为这是我浪费了大部分时间的地方:
看看我的个人资料,我在软件开发(C语言)方面有4.5年的经验,现在已经做了8个月的数据科学工作,但仍然远远没有回答这个问题:
你最喜欢的机器学习算法是什么?为什么?
是的,我同意我的情况看起来像是big-o:O(n^n)的最坏情况
我读过成百上千(不,我没有夸张)的博客帖子和文章,这些人找到了数据科学的工作,改变了行业。我追踪并模仿他们的数据科学之旅进入我的生活,从他们的思维模式到他们课程的选择,甚至他们对某些书中某些章节的选择,就像一份完美的复制品。我仍然没有回答上面的问题,因为我甚至不知道为什么我会喜欢一个机器学习算法而不是另一个。毕竟,我只是在无意识地咀嚼所有的模特,以“变得像他们一样”的名义。
两天前,我放弃了它,决定遵循我认为我应该做的事情。(令人惊讶的是,我今天看到了Eric的帖子。好像宇宙在告诉我,我走在正确的道路上,一条属于我的道路。)
我认为我们每个人都必须个性化我们的旅程。我们的环境、我们的才能、我们的经验、我们的态度、我们的职业道德、我们的背景和我们的学习能力,都是不同和独特的。这就是为什么追踪别人的路径可能永远行不通。
所以我决定我将尝试和开创自己的道路,成为一名数据科学家。这并不是说我会停止阅读别人的旅行,我仍然会阅读,但我不会盲目地跟随他们,试图将其复制到我的生活中,我会把它们作为指南针,作为指导机制。这花了我8个月的时间。迟来总比不来好。
6+6+8=20个月
我的计算机编程经验解决了这个问题。我花了50年的时间在这个行业做编程,写代码为我的雇主赚钱,这已经教会了我“完成”比“完美”好。发现一个人面临的问题,并建立一个解决方案,实际上是唯一重要的事情。单纯的学习和教育是不行的。
6+6+8+0=20个月
回到2018年,我花了很多时间为数据科学学习数学和统计学。我花了4个月的时间学习:
这是一个多么大的错误:-(.据我今天所知,我所需要的只是:
是的,没有什么花哨的,只有基本的。你找到工作后能做的所有花哨的事情。在此之前,您使用Python或R库。不要像在学校或大学里那样试图学习数学公式,而是尝试使用Python中的库调用来学习如何使用它,例如使用Scipy计算t检验,并学习理解它所需的数学知识:
3.1。Python-Scipy课堂讲稿中的统计学
一个简单的线性回归给出两组观测值,x和y,我们想检验y是线性的假设...
嗯,有8-10个月:
6+6+8+0+10=30个月
我纠结于这个问题:
当我从一家公司得到一个带回家的任务时,这个问题就消失了,这家公司找我做R相关的工作。在使用R和Python完成带回家的任务后,我再也不想碰R了。根据我的经验,Python更适合于软件工程实践,而在为实际工业工作编写数据科学代码时,软件工程实践是绝对必要的。它几乎和你在做软件开发时一样。从那以后,我完全变成了Python。就我个人而言,如果我必须使用另一种语言,我会使用JuliaInstead。大约4-6个月。
6+6+8+0+10+4=34个月
这个错误是我在“数学错误”之后做的。我花了几个月的时间思考SQL与NoSQL的对比。我们看着某件事,我们从我们的观点来思考它,并认为这就是它的意思。我们都知道这是一个数据时代,每天都有数百万兆字节的数据产生。大部分都是非结构化的。我猜我应该学习NoSQL。但是几乎所有的工作描述都只提到SQL。然后我会想到做SQL。
我既没有学SQL也没有学NoSQL。这就是为什么对一件事左右为难会消磨你几个月的时间。
我不再以我的方式来解释事情,而是开始关注那些获得数据科学工作的人以及他们学到了什么。他们都把SQL列为一种技能。所以我改用SQL。开始ISSQLBolt的好地方。
我不会在这里考虑任何时间浪费,因为即使我没有学到任何东西,我用这些时间来学习其他东西。所以,到目前为止的等式是:
6+6+8+0+10+4+0=34个月
这是一个你需要认真改变心态的领域,我也需要这样的改变。我的计算机编程背景使我成为一个百分之百的技术人员,他真的不知道如何不仅仅是一个团队工作者。对团队的贡献是我社交和沟通技巧的终点。
我从一开始就不知道这一点,但由于我的阅读习惯,我发现了数据科学的许多特点,使它与其他技术工作格格不入。我克服这一点的一个方法是与我认识或遇到的人谈论大数据。通过向我的朋友和其他人解释数据科学,机器学习概念。但是由于我的自由职业工作和数据科学学习需要我花很多时间在电脑前,我没有得到很多机会来锻炼这种方法。
数据科学不仅仅是编程,数据科学不仅仅是Web开发,它不仅仅是分析数据和建立模型。这是故事的一半。数据科学的另一半是能够与不太懂技术的人交流。业务利益相关者、管理层的决策者和客户是你将要与之打交道的三种不同类型的非技术人员。因此,如果我们把与人合作视为“另一项技术工作”,那么它将是一个巨大的痛苦。Bycole Nussbaumer Knaflic有一本关于交流数据洞察力的优秀书籍,书名为“用数据讲故事”。它是一种必读的书。
这还有另一面。业务问题。你所建立的模型,你所做的比较,以及你所达到的准确性,它是如何使业务受益的?你看,如果一个数据科学家不能为业务带来利润或利益或增值,他的工作就没有意义。如果你来自像我这样的技术背景,这是一件很难掌握和擅长的事情。在这种情况下,技术心态所做的是让您的注意力只集中在构建模型和分析数据上,因为这是我们所做的。我们没有业务上下文。
我没有一个很好的解决办法,因为从来没有任何个人经验。所以在这里半信半疑地接受我的建议。也搜索自己。我只能阅读博客、帖子和文章来理解该做什么。我也不认识任何产品经理(我见过一两个IT服务经理,但我不知道这是否合格)。我遇到的唯一解决这个问题的方法有两个:
如果你是一名程序员或软件开发人员,不了解这一点会使你在技术技能上工作时间长而辛苦。6个月的损耗:
6+6+8+0+10+4+0+6=40个月
你需要避免的另一个陷阱。我在这里面陷了一段时间。我想自己写一两篇论文,但现在我的第一个重点总是“构建某个东西”。尽可能少地学习构建某个东西。
是的,所有这些文件看起来非常非常令人印象深刻,非常漂亮。论文大多是关于学术的。你正试图在这个行业找到一份工作。学术界和工业界并不匹配,除了两个可能的例外:
除了上面所说的,我看不出偏离我的重心在一个好的一级或二级公司找到一个数据科学家的职位有什么意义。别误会我的意思,我喜欢做研究。事实上,早在大学时,我就想读博士学位。在微内核研究中。研究工作需要大量的时间和精力。我认为更好的生活方式是在职业生涯中找到平衡点:在你的兴趣和市场/行业需求之间找到平衡点。避免在任何一边摔倒。
与其跟上所有的论文,一个更好的平衡学习的方法是:
6+6+8+0+10+4+0+6+10=50个月
这个很大。我想我一辈子都在为此挣扎。有些人有,有些人没有。我倾向于说,也许聪明人没有这个问题(我见过或读到的聪明人,他们没有)。像我这样的人一辈子都在努力战胜它。这是个监狱,相信我。带着“做某事只有一种方法”的心态生活是相当令人沮丧的。如果你看现实生活中的故事,想法没有任何限制。
这更多的是个人发展的障碍,而不是技术上的障碍,因为无论你在哪个领域工作,这一个都会出现,它绝对与技术无关。我还在努力。到目前为止,我找到的一个解决办法是,当我在某个问题上找不到路时,如果是晚上,我会下机器去散步;如果不是晚上,我会读一本完全无关的书(一些非小说类的书),或者骑摩托车,完全忘记这个问题。然后我会回来,试着从不同的文章或博客文章中学习同样的东西,而不是提到我被困的原点。只是从别人的角度看待同样的问题。
我不能给这个规定任何时间限制。我一生都在为这个奋斗:
6+6+8+0+10+4+0+6+10+寿命=50+寿命
所以,我浪费了将近50个月?
不是真的。
当谈到我浪费时间的地方时,所有这些观点都相互重叠。实际上是12个月。2019年12月至2020年11月。在开始的几个月里,我甚至不知道我需要做什么。事情直到今年2020年3月才开始有意义。我想如果事情对我来说更清楚,我可以节省4-6个月的时间,但这只是一个疯狂的猜测,一些真正聪明的人告诉我:需要任何时间来打破障碍。让我再重复一遍:
我们每个人都有一次个人数据科学之旅。我们的环境、我们的才能、我们的经验、我们的态度、我们的职业道德、我们的背景和我们的学习能力,都是不同和独特的。这就是为什么也许追踪别人的道路永远行不通。这就是为什么你需要不断推动自己学习你能学到的东西,让自己了解这个行业正在发生的事情,并不断纠正你的道路(就像我们智能手机上的地图等应用程序不断纠正我们并指明方向)
我试图学习神经网络,然后才能理解逻辑回归比线性回归更适合什么样的问题。在机器学习有任何意义之前,我就在做深度学习。就我而言,这是因为:
深度学习和AI在媒体中无处不在。我们倾向于认为我们需要比其他人更好,而其他人已经在写高度数学化的博客文章,用他们华而不实的公式和大量代码。不相信我?检查一下这个。当这样的人已经掌握了深度学习和数据科学,谁会接近我们?
是啊,这太常见了,他们给它起了个名字。它被称为“冒名顶替综合症”。去读一下吧。我以为我唯一一个受折磨的人。但后来我意识到这很常见。是的,市场是竞争的,由于目前的流行病,许多人失去了工作。我在领英上看到过几个数据科学家和机器学习工程师失业的帖子。我见过他们甚至恳求“喜欢和分享”他们正在找工作。看到这一点令人心碎。每个人都值得过上好日子。
让我们看看积极的一面,这场流行病扰乱了世界,它使许多企业陷入停顿,而一些企业的客户端数量飙升(播客和视频会议服务就是其中之一)。在这样一个混乱的时代,我们需要更好地承受痛苦和苦难,并找到加强我们决心的方法。我相信我们出生在某一年不是偶然的,这就是我们在这场流行病中的原因。我认为我们应该从中吸取教训,我们应该在这些时代创造更好的生活。我祝你在数据科学的学习之旅中好运,我希望我们继续相互学习,使自己变得更好。
数据分析咨询请扫描二维码
数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21数据分析作为一个备受追捧的职业领域,吸引着越来越多的女性加入其中。对于女生而言,在选择成为一名数据分析师时,行业选择至关 ...
2024-11-21大数据技术专业主要学习计算机科学、数学、统计学和信息技术等领域的基础理论和技能,旨在培养具备大数据处理、分析和应用能力的 ...
2024-11-21《Python数据分析极简入门》 第2节 3 Pandas数据查看 这里我们创建一个DataFrame命名为df: importnumpyasnpi ...
2024-11-21越老越吃香的行业主要集中在需要长时间经验积累和专业知识的领域。这些行业通常知识更新换代较慢,因此随着年龄的增长,从业者能 ...
2024-11-20数据导入 使用pandas库的read_csv()函数读取CSV文件或使用read_excel()函数读取Excel文件。 支持处理不同格式数据,可指定分隔 ...
2024-11-20大数据与会计专业是一门结合了大数据分析技术和会计财务理论知识的新型复合型学科,旨在培养能够适应现代会计业务新特征的高层次 ...
2024-11-20要成为一名数据分析师,需要掌握一系列硬技能和软技能。以下是成为数据分析师所需的关键技能: 统计学基础 理解基本的统计概念 ...
2024-11-20是的,Python可以用于数据分析。Python在数据分析领域非常流行,因为它拥有丰富的库和工具,能够高效地处理从数据清洗到可视化的 ...
2024-11-20在这个数据驱动的时代,数据分析师的角色变得愈发不可或缺。他们承担着帮助企业从数据中提取有价值信息的责任,而这些信息可以大 ...
2024-11-20数据分析作为现代信息时代的支柱之一,已经成为各行业不可或缺的工具。无论是在商业、科研还是日常决策中,数据分析都扮演着至关 ...
2024-11-20数字化转型已成为当今商业世界的热点话题。它不仅代表着技术的提升,还涉及企业业务流程、组织结构和文化的深层次变革。理解数字 ...
2024-11-20在现代社会的快速变迁中,选择一个具有长期增长潜力的行业显得至关重要。了解未来发展前景好的行业不仅能帮助我们进行职业选择, ...
2024-11-20统计学专业的就业方向和前景非常广泛且充满机遇。随着大数据、人工智能等技术的快速发展,统计学的重要性进一步凸显,相关人才的 ...
2024-11-20