发现大数据中难以捉摸的大智慧 -数据分析师-CDA数据分析师官网

热线电话：13121318867

发现大数据中难以捉摸的大智慧 -数据分析师

2015-01-05

马上就要进入 2015 年了，你可能已经知道人们立马就会想到“大数据”。怎么会想不到呢？厂商和记者们一直在不停地说它。你也知道他们是怎么宣传的，对吧？大数据将给出所有答案，让公司运行得更高效，帮助公司作出基于数据的明智决策，进而让公司具备强大的竞争优势。

在某些程度上，上面所说的没错，但和其他过度炒作的技术一样，许多公司发现难以部署大数据技术，而且现实情况也和炒作表现得截然不同。他们或许找到了收集和处理数据的有效方法，但用它来作更好的决策则是另一个问题了。这些公司发现，在大数据和大数据理解之间缺失了关键的一环，如果不找到方法来解决这个问题，它们就只能空守一大堆令人困惑的数据，却没有多少收获。

正如一名硅谷资深人士最近告诉我的，尽管从创业公司活动和融资上看，大数据收集和处理最近获得了众多关注，但在预期和结果之间仍然存在着巨大差距。正如此人所指出的：“大数据还未能转化为大知识、大洞见和大智慧。”按照他们的预测，距离这一情况变成现实还有一段路要走。

区分炒作和现实

我们想相信从大数据中获得价值非常简单，只需导入数据，运行程序，就能获得洞见。但事实上，从大数据中获得洞见的过程要复杂得多。《数据预测：大数据战略》(DataDivination: Big Data Strategies) 一书的作者帕姆·贝克 (Pam Baker) 表示，尽管存在数据直接给出答案的例子，但这并非常态。

她解释道：“在很多情况中，数据可以给出很确定的答案。比如，预测性分析能精确地预测某个飞机零件或水系统零件报废的时间，也能告知我们更新新零件的具体时间，以便在旧零件报废之前尽可能地利用它。”

但她补充道：“也有很多时候，数据没法给出确定的答案，但你可以从诸多可能的行动中选择一个，或者选择不采取任何行动。这一切都要取决于你在做的事情。”

贝克的看法是对的，一些数据驱动的决策要微妙得多，也需要一点点人性化。人们能通过开发可靠的指标和强大的算法来起到帮助作用。但他们也必须弄清楚如何最大化利用起数据所透露出的信息来。这些信息有时候很直接，但通常并不如此。

专家鸿沟

我们也愿意相信，大数据会让企业用户能立刻直接访问数据，以便在这个过程之中就能作出最好的决策。不幸的是，现在的工具还没有成熟到这种程度。

为了帮助解决这一问题，我们需要更多数据专家来帮助我们处理数据，并从海量信息中发现答案。投资了大数据公司如 Parstream 的 Kholsa Ventures 投资合伙人基斯• 拉波斯(KeithRabois) 表示，公司需要配备数据科学家来进行深度研究，这可不是一般公司能做到的。

拉波斯称，你也许想让数据科学家们来开发应用和算法，从事重大的数据科学项目，但在拥有数据科学家的公司中，他们并不总是有时间来做这些事，部分原因是他们要花时间来做不那么深度的研究，而这样的研究不能充分利用他们的技能。

拉波斯还说道，在最好的情况下，数据科学家已经开发出了工具，能在各方需要答案时在组织内分发分析。我们不想要的情况是，当我们需要答案时，就跑去问数据专家，然后坐等答案。

问题是，即便是最聪明的人开发出最成熟的算法，对于复杂问题，这些算法也并不总能给出最确定的答案。算法根本不可能考虑到所有选项，也不能考虑到极难测量到的特定因素。

给我找个好的中场手

棒球就是个很好的例子，理论上两个各方面都相似的棒球选手，各自的比赛表现可能差别很大。数据专家们会告诉你，他们经过多年研究开发的 Sabermetrics 算法将提供挑选选手的所有信息，帮助你找到适合某个角色的好棒球选手。他们还开发出了诸如替换胜率 (WinsAbove Replacement) 的算法，FanGraphs 对这一算法的描述是：“如果这名选手受伤，其球队不得不用次级棒球联赛球员或（表现不佳）的选手来替换，这支球队会丢多少分？”他们使用一系列复杂的指标来衡量更换球员导致的胜率差异。

无疑，这些成熟的指标能更精确地帮助计算选手的价值，但它测量不到所有东西，比如在压力下的表现，练习的勤奋程度，是哪种队长以及与队友相处得有多好。这些因素都很重要，也都要难量化得多。

纯统计测量的信徒会告诉你，一切皆可测量。大部分情况的确如此，但我很多时候也看到，理论上各方面都相似的棒球选手，却未能像前任选手一样扮演好某一角色，尽管他们的数据相似度很高。

将这一情况应用到企业中，人力资源专家在一个开放的程序员职位上可能会碰到类似的问题。申请这份工作的两个程序员可能拥有相似的技能，但一个拥有与人打交道的能力，可以和其他员工很好地进行合作，而另一个人的沟通能力很差。这方面可不会在简历上体现出来。即便拥有大量数据，也很难考虑到所有可能的结果，尤其是涉及到人时。

想想医疗诊断的细微差别

好医生都会告诉你，哪怕两个病人症状相同，也可能要根据年龄、体重、其他健康问题以及因素来采取不同的治疗手段。

想想在医疗中使用 IBM Watson 智能分析平台的情形。当我最近对一位朋友谈起，一些医生正使用 Watson 来帮助诊断和作出治疗决策，他生气了。他不想让一台机器来决定自己的治疗手段。这是很正当的担忧，但在我所说的情况中，Watson 并没有给出医生会盲从的答案，而是基于已有迹象、病人信息、症状及当前研究提供一些治疗选项。

正如我指出的，忙碌的医生不可能一边工作一边跟踪自身领域的所有研究。因为相关研究太多了（这是好事）。这也是 Watson 发挥作用的地方。Watson 能够以比人快得多的速度快速过滤最近的研究，但仍然需要医生来理解病人的细微差别，从而确定治疗方向。我将这一过程称为科学中的艺术。知识只能带你到这么远，最终的决定权依然在医生而不是机器手中。

企业很可能会面临类似的不确定结果，必须有人介入，运用自己的知识，在数据的帮助下做出选择。

前进的方向？

有时候机器能发现人需要数年时间才能弄懂的答案和洞见。比如，贝克指出，大数据帮助我们发现了有关癌症等疾病的答案，涉及的因素从未有人类研究员考虑过。“如果大数据没有发现这一信息，我们或许永远也不会发现合适的疗法（或者至少要过很多年）。我的观点是，大数据可以非常精确”，她对我表示道。

而且，她相信机器学习会在不远的将来发展得足够成熟，届时机器或许会为我们作更多决策，因为我们的大脑无法同时处理所有信息。

她说的也许没错，但就现在来说，收集和处理数据的能力已经走在了理解数据含义的前面。正如贝克提到的，预测性分析一直在提高，有时候数据会直接指向答案，但这仍然是个复杂的人机互助过程。即便技术大步向前，人与机器如何在一起协作也依然处于探索中。

除非我们找到平衡点，或者在整个过程得益于机器出现大幅进展之前，我们都要面临大智慧鸿沟，这将需要一些时间和技术进步来填补。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；