实现数据科学研究结果可复制的十条规则-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读实现数据科学研究结果可复制的十条规则

实现数据科学研究结果可复制的十条规则

2017-11-18

实现数据科学研究结果可复制的十条规则

一群科研人员在一篇论文中，讲述了可复现性计算研究的十条规则。如果遵循这些规则，应该会产生更具可复现性的结果。

所有的数据科学都是研究。仅仅因为研究结果没有发表在学术论文中，这不会改变我们试图从庞杂数据中获取洞见的事实。因此，对于任何从事内部分析的数据科学家来说，那篇论文中的十条规则都应该引起重视。

规则1：对于每个结果，都要记录它的产生过程

知道研究结果的产生过程很重要。知道你如何从原始数据中得出该结论，这可以让你：

为结果辩护

发现错误时修改结果

在数据更新时复现结果

提交结果以供评审

如果你使用一种编程语言(R、Python、Julia、F#等等)来编写你的分析脚本，那么过程应该是清晰明了的，前提是避免了任何的手动步骤。如果使用“鼠标点击”工具(比如Excel)，这会使你更难记录步骤，因为你必须描述一系列手动操作，而手动操作很难记录和复现。

规则2：避免手动数据操作步骤

你可能很想在编辑器中打开数据文件，手动修改格式错误或者删除异常值。而且，现代的操作系统使你可以轻松地剪切和粘贴应用。然而，你应该抵挡住这种走捷径的诱惑。手动数据操作是无法显示踪迹的操作。

规则3：存档你使用的所有外部程序的准确版本

理想情况下，你应该创建一个包含所有脚本运行软件的虚拟机。这使你可以生成分析生态系统的快照，轻松实现结果的可复现性。

不过，这并不总是可行。例如，如果你使用云服务，或者你分析的数据集非常庞大，那么你很难圈定整个环境进行存档。另外，商业工具的使用可能使你难以和其他人分享这样的一个环境。

至少，你必须记录你使用的所有软件的版本，包括操作系统的版本。软件的任何细微变化都可能影响到结果。

规则4：记录所有自定义脚本的版本

应该使用版本控制系统(比如Git)来记录脚本的版本。你应该标记(快照)多个脚本，并在你产生的任何结果中索引那个标记。这样一来，如果你后来决定修改脚本(你肯定会这么做)，你就可以及时找到产生特定结果的确切脚本。

规则5：尽量用标准格式记录所有的中间结果

如果你遵循了规则1，应该就有可能从原始数据中重现任何结果。不过，虽然这在理论上是可能的，但在实践中存在种种限制。问题可能包括：

缺乏从头开始运行结果的资源(比如使用了大量的集群计算资源)

使用了商业工具，但没有某些工具的授权

使用某些工具的技术能力不足

在这些情况下，从原始数据的派生数据集着手不失为明智之举。这些中间数据集(比如CSV格式数据)提供了更多的分析选择，并且在出错的时候，更容易识别有问题的结果，不必重头来过。

规则6：对于带有随机性的分析，要记录潜在的随机种子

数据科学家常常没有为他们的分析设置种子值，因此不可能准确复现机器学习研究。很多机器学习算法都包含随机成分，虽然强劲的结果可能在统计上是可复现的，但没什么能比得上与其他人产生的精确数据相一致。

如果你使用脚本和源代码控制，你可以在脚本中设置种子值。

规则7：始终保存原始数据

如果你使用脚本/编程语言，图表常常将自动生成。但如果你使用Excel这样的工具来绘制图表，请确保你保存了原始数据。这使图表可以复现，也能对图表背后的数据进行更细致的检查。

规则8：生成层次分析输出结果，使越来越细致的层次可以被检查

数据科学家的工作是以某种形式总结数据，从数据中获取洞见。

不过，总结也容易导致数据误用，所以应该让相关方可以把总结分解成各个数据点。对于每个总结性结果，要与使用的数据联系起来，以便对总结进行推算。

规则9：把文本陈述和潜在结果联系起来

归根结底，数据分析的结果是以文字的形式呈现，而文字是不精确的。有时，结论和分析之间的联系很难确定。由于论文常常是科研中最具影响力的部分，因此把论文和结果联系起来至关重要，由于规则1的缘故，与原始数据联系起来也很重要。

这可以通过在文本中添加脚注的方式来实现。脚注引用的文件或URL应该包含引出论文中观察发现的特定数据。如果你无法建立这种联系，说明你可能没有充分记录所有步骤。

规则10：公开脚本、过程和结果

在商业环境中，可能不适合公开所有的数据。不过，向组织内部的其他人公开数据是可以的。基于云的源代码控制系统，比如Bitbucket和GitHub，允许创建私密存储，任何获得授权的同事都能访问。

众人的审视可以改善分析质量，所以分享得越多，你的分析质量就可能越高。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

机器学习虚拟机数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇Excel-漏斗图分析（差异分析）

下一篇大数据分析工程师薪资水平

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

实现数据科学研究结果可复制的十条规则

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA 三级《敏捷数据挖掘》教材知识体系全面解读 ...

【CDA干货】付费玩家流失的核心原因与游戏行业长效 ...

CDA持证人专访：蒋少寒谈传统制造业与互联网行业数 ...

学完商业数据分析，开启 CDA 量化策略：从业务思维 ...

CDA持证人专访：赵森淼谈药企数据分析从业体验与转 ...

【CDA干货】卡方检验与T检验结果的标准化解读方法及 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载