大数据人才流失: 科研为何陷入困境_数据分析师
然而近年来,科学研究领域加速转变到以数据为核心,是有负面影响的。总结来说就是:称职的科学研究者需要的能力,和称职的工业界从业人员需要的能 力,越来越无法区分。具有典型惰性的学术界刚刚开始适应这一转变,而其他领域早已开始大规模鼓励和奖励这种能力。不幸的是,这导致了很多有才的准研究者难 以在学术界立足,只能投入财大气粗的工业界的怀抱。
数据的神奇效果
20世纪60年代,物理学家Eugene Wigner发表了他的着作:数学在自然科学界的神奇效果。它论述了抽象的数学概念在上下文中的有效性,远远超过产生这些概念的上下文,其差距到了惊人的 地步。毕竟,谁能想到Riiemannn在20世纪研究的非欧集合会是爱因斯坦重新思考万有引力的基础?谁又能想到,抽象固体的旋转群的编纂几乎最终导致 了物理学家成功地预测希格斯玻色子的存在?
谷歌研究者Alon Halevy, Peter Norving和Fernando Pereira于2009年以数据的神奇效果为题发表的文章响应了这一观点。文章展现其惊人的洞察力:只要有足够的数据,数学模型的斟酌选择不再重要 尤其是对他们所研究的自动语言翻译来说,比起很少的数据及其精确模型,简单模型和大量的数据更有胜算。
如果我们大胆假设这个观点可以延伸(至少是部分延伸)至自然语言处理之外,那么仅仅是数据挖掘这一项技能都会逐步打败领域知识。我相信这一预言已被证实:众多学术领域,有效地处理数据的能力正在取代其他更经典的研究模式。
我并不是说对某一领域的精通已经完全过时。如果不理解粒子相互作用理论,大型强子对撞机(LHC)产生的10Gb每秒的速度将一无用处,就像只有理 解物理过程驱动空间爆炸的理论,大型天文望远镜(LSST)产生的每晚15TB的原图像数据才能帮助我们理解宇宙学。然而,LHC和LSST反映了越来越 普遍的现象:科学研究结果完全依赖对大量数据的精确分析。实际上,我们发现,即使数据量并不足够大,能够对它们处理、抽象、挖掘和从数据中学习的研究 者也在逐步促进科学进步。
新型科学家
从某种意义来说,数据驱动的研究是过去的研究趋势的简单延续。自16-17世纪科研分离出亚里士多德哲学,科学进步已基本依赖试验和观察。要知道, 是第谷16世纪开创性的对天空的研究,促动了17世纪开普勒的行星运动规律的研究,继而为牛顿的万有引力定律铺平道路,最终形成爱因斯坦的广义相对论。科 学家始终在努力处理数据,区别只在于这一努力如今正成为科学研究过程的核心。
不过,科学研究逐步以数据为中心已经产生了解决问题的新办法:进入LHC、LSST时代,善于运用高性能并行数据统计算法探索大量的群体性数据集的 研究者,以及新的统计方法、机器学习算法、高速代码,以前所未有的规模重复进行典型分析的应用,推动了振奋人心的研究。简而言之,新型科学家一定是精通统 计、计算、构建算法、软件设计、领域技能(可能作事后使用)的多栖专家。在粒子物理学、生物学、化学、神经科学、海洋科学、 大气物理学等几乎所有领域,研究越来越趋向于数据驱动,同时数据收集的速度丝毫没有放缓的迹象。
科学软件的基础作用
科学软件的共同点,是这些工作都离不开编写代码。高质量的、组织良好的公共代码才能对科学过程极为重要的重现产生影响。诸多公共软件都是关于当前的非再生性科学危机、新的出版形式的需要、新的研究、代码和数据公开访问。此处不再详谈更多。
此处我想详细讨论的是,优化的专业软件对大型数据集分析和抽象的核心作用,以及它成为现代科学研究的核心的演绎过程。我的合作者Gael Varoquauz以及他的同事最近发表评论证实了这一观点(见Gael的简介),并就公共的,组织良好的健壮的科学代码对于现代科学研究的重现性和研究 本身的进步都必不可少这一论点进行了实例研究。过去的研究结果,如果只是在论文中简单提及,而产生这结果的实际过程的代码未经组织,这样的结果就不能作为 新的研究的基础。就像是Buckheit和Donoho曾说的:
学术期刊上的计算科学的文章并不是学术,他们只是学术的幌子。真正的学术是完整的软件开发环境,以及计算出数字的完整指令集。
公开代码看起来像是马后炮,但是一般来讲,仅仅发布代码是不够的。像Brandon Rhodes在Rupy 2013 Talk中说的那样,一个程序运行正常,总好过它勉强能正常运行。让代码对在科学研究之外的作者有用需要相当大的投入。这种项目具有难以估计的价值, 就像NumPy项目,Scikit-learn项目,等等。它们为研究者提供一个框架,在此框架下,代码可以共享,在github上共同审阅和发布,以此 造福研究社区。
学术界的断层
这是学术界的弊病:尽管有层次的高质量软件正成为现在的科学研究模式的核心,并且这些实践将有助于学术研究的成功,学术界却非常成功的阻止了这一实 践。发表或者毁灭的模式中,论文制约着大多数研究型高校,相当于学术奖励框架的货币,而花费在构建和编写软件工具上的时间统统不算是写论文的时间。这 就导致,除非是某种特殊情况,专注于可复用的开放软件的人很难在学术界获得晋升的机会。这些可怜的人们,期待着在科学软件的发展而不是研究论文中获得成 就,往往会发现他们已置身于学术群体的边缘。
某种程度上,这种断层一直存在。学术界总奖励某些技能,而损害其他技能:教学就是一个长期被边缘化的技能。然而这其中的两个主要的区别使得学术界的断层更加令人担忧:
前面提到的构建和编写软件工具的技能,正滑向学术奖励框架边缘,而它恰恰是现代的研究能否成功的关键
几乎全世界都在使用密集数据挖掘工具的同时,学术界忽略的不以为然的技术正是工业界最看重最鼓励的
这场风暴导致技术纯熟的研究者渐渐滑离研究而偏向工业界。学术界尽管也存在专注于软件的工作,但那些工作基本薪水很低,没有地位,也没有晋升及机 会。与之相比,工业界吸引力超高:它致力于解决有趣的紧迫的问题,提供优越的薪水和福利,帮助博士后从工作站之间的迁徙中解脱出来,甚至鼓励基础课题的研 究和发表。这种情况下还能留在学术界简直是奇迹。
我所研究的天文学和天体物理领域尤其让人担心。LSST项目正在筹备这一个十年底的第一个目标:十年内能够实时处理每晚30TB的数据,这一目标极 其激进。要处理这样大量的数据,未来几年,这个项目可能要招募数十名以数据为中心的天文学研究者。考虑到所需技术和当前的薪酬水平,以及学术界面向工程的 工作的发展前景,我很怀疑它能够吸引到足够的应聘者。
学术界该如何适应
不止我一人在考虑这些问题。我和国内外很多人们讨论过文中提到的一些话题,了解到有些制定政策的人们和资助机构也正在思考这些严峻的问题。但是更现 实的问题是怎样解决这些问题,阻止它恶化。抱怨学术界的文化是学者们的常事,Deidre McCloskey的学术威望法则印证了本文的一些观点:越是实用的领域,越没有地位。这话原是在哀叹基本的论文像是新手的作品从而地位低下,却很适 用于现在的主题。
我认为威望才是关键:学术界采取审慎的措施追赶工业界的脚步,对于数据驱动的研究必不可少的软件,给予其开发者更多的声望,才是解决这些问题的办法。研究者,资助机构和制定政策的人们也可以采取行动来促进这一过程。以下是一些建议:
学术刊物持续强调可重现的重要性。可重现性是科研过程本身必不可少的要素,而它依赖于开源的高质量代码。将这些代码视作论文发表的重要组成部分,能够提高软件开发者在学术团体的地位。
推动建立终身制教授评价的新标准。新的标准同时考量公共软件的开发和维护以及传统的论文发表和教学,这样投入到编写整洁的公共代码的时间就不会再被遏制。
创建并资助新的学术就业体制,帮助博士毕业生、博士后研究员、研究员和终身教授的就业。就业职位应特别看重和奖励公共的,跨学科的科研软件的开发,从而为愿意构建和维护通用的基础软件的研究者提供可行的学术职业发展道路。
提高博士后科研职位的薪酬。这个建议可能存在争议,但现在的薪酬水平根本无法保持下去。NIH职位为应届毕业的博士后提供的基本工资是每年四万刀 以下。博士后工作七年涨到每年五万刀。若精通构建和维护软件工具的应届博士后就职于工业界,薪水会多出好几倍,并且工业界尊重他们的计算能力,他们也可以 运用这些能力研究自己感兴趣的问题。我很担心,学术界不及时作出这些调整的话,未来几年的科学研究将遭遇严重的障碍。
我们生活在一个振奋人心的时代,加速增长的收集、存储、处理和学习海量数据的能力,使得我们对世界的科学认识的宽度和广度都在增加。要保持这探索新 事物的节奏,我们需要激励研究人员安于研究团体。这不是轻而易举能解决的问题,但是努力才能保证科研在未来可以健康和可持续的发展。
数据分析咨询请扫描二维码
《Python数据分析极简入门》 第2节 2 Pandas数据类型 Pandas 有两种自己独有的基本数据结构。需要注意的是,它固然有着两种数据 ...
2024-11-01《Python数据分析极简入门》 第2节 1 Pandas简介 说好开始学Python,怎么到了Pandas? 前面说过,既然定义为极简入门,我们只抓 ...
2024-10-31在当今数据驱动的世界中,数据科学与工程专业的重要性愈发凸显。无论是推动技术进步,还是在商业决策中提供精准分析,这一专业都 ...
2024-10-30在当今信息爆炸的时代,数据已成为企业决策和战略制定的核心资源。爬虫工程师因此成为数据获取和挖掘的关键角色。本文将详细介绍 ...
2024-10-30在当今数据驱动的世界中,数据分析是揭示商业洞察和推动决策的核心力量。选择合适的数据分析工具对于数据专业人士而言至关重要。 ...
2024-10-30能源企业在全球经济和环境保护双重压力下,正面临前所未有的挑战与机遇。数字化转型作为应对这些挑战的关键手段,正在深刻变革传 ...
2024-10-30近年来,随着数据科学的逐步发展,Python语言的使用率也越来越高,不仅可以做数据处理,网页开发,更是数据科学、机器学习、深度 ...
2024-10-30大数据分析师证书 针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。 ...
2024-10-30《Python数据分析极简入门》 附:Anaconda安装教程 注:分Windows系统下安装和MacOS系统安装 1. Windows系统下安装 第一步清华大 ...
2024-10-29拥抱数据分析的世界 - 成为一名数据分析工程师是一个充满挑战和机遇的职业选择。要成功地进入这个领域,你需要掌握一系列关键技 ...
2024-10-28降本增效:管理战略的关键 企业管理中的降本增效不仅是一项重要的战略举措,更是激发竞争力、提高盈利能力的关键。这一理念在当 ...
2024-10-28企业数字化是指利用数字技术和信息化手段,对企业的各个方面进行改造和优化,以提升生产效率、服务质量和市场竞争力的过程。实现 ...
2024-10-28数据科学专业毕业后,毕业生可以选择从事多种不同的岗位和领域。数据科学是一个快速发展且广泛应用的领域,毕业生在企业、学术界 ...
2024-10-28学习数据科学与大数据技术是当今职业发展中至关重要的一环。从基础到高级,以下是一些建议的课程路径: 基础课程: Python编程 ...
2024-10-28在信息技术和数据科学领域,数据架构师扮演着至关重要的角色。他们负责设计和管理企业中复杂的数据基础设施,以支持数据驱动的决 ...
2024-10-28进入21世纪以来,随着信息技术的迅猛发展,大数据已经成为全球最具影响力的技术之一,并成为企业数字化转型的核心驱动力。大数据 ...
2024-10-28随着科技的迅猛发展,数字化转型已成为现代企业保持竞争力和推动增长的关键战略之一。数字化不仅仅是技术的应用,它代表着一种全 ...
2024-10-28银行业正处于一个前所未有的数字化转型时期。在数字经济的驱动下,金融科技如大数据、人工智能、生物识别、物联网和云计算等技术 ...
2024-10-28数据分析可视化是一门艺术与科学相结合的技术,其主要目标是将复杂的数据变得更易于理解和分析。通过将数据以图表的形式呈现,我 ...
2024-10-28数据分析师在现代信息密集型的商业世界中扮演着至关重要的角色。他们通过专业的技能和敏锐的商业洞察力,帮助企业从大量数据中提 ...
2024-10-28