来自麦肯锡的机器学习指南-CDA数据分析师官网

来自麦肯锡的机器学习指南

2019-07-09

来自麦肯锡的<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>机器学习</a>的指南

CDA数据分析研究院出品，转载须授权

它不再是人工智能研究人员和亚马逊，谷歌和Netflix等天生的数字公司的专利。

机器学习是基于可以从数据中学习而不依赖于基于规则的编程的算法。上世纪90年代末，由于数字化和廉价的计算能力的稳步发展使数据科学家能够停止构建成品模型，而是训练计算机去这样做，因此它在20世纪90年代后期成为一门科学学科。世界现在正在涌动着大量的无法管理和复杂的大数据，这增加了机器学习的潜力 - 以及对机器学习的需求。

2007年，斯坦福大学人工智能实验室负责人李飞飞放弃了尝试对计算机进行编程以识别物体的做法，并开始标记孩子三岁之前可能遇到的数百万原始图像贴上标签并将其输入到电脑上。通过显示成千上万个带有猫的实例的图像数据集，机器可以形成自己的规则来决定一组特定的数字像素集实际上是否是猫。去年11月，李的团队推出了一个程序，可以高精度地识别任何图片的视觉元素。IBM的Watson机器依赖于类似的自我评分系统，2011年在数百个潜在的答案中击败了世界上最好的Jeopardy节目中的选手。

尽管这些壮举令人眼花缭乱的很，但是机器学习与人类意义上的学习完全不同。但它已经做得非常好了 - 而且会变得更好 - 它正在无情地吸收任何数量的数据和变量的各种组合。由于机器学习作为主流管理工具的出现相对较晚的，因此它常常引发一些问题。在这篇文章中，我们提出了一些我们经常听到并以我们希望对任何高管都有用的方式进行回答。现在是解决这些问题的时候了，因为机器学习增加的商业模式的竞争的重要性正在蓄势待发。实际上，管理学作者拉姆·查兰（Ram Charan）表示”任何现在不是数学家、或者无法成为数学家的组织，都已经成为了一家传统的公司。“

1.传统行业如何利用机器学习收集新的业务见解？

好吧，让我们从运动开始吧。今年春天，美国国家篮球协会锦标赛的竞争者依赖于加州机器学习初创公司Second Spectrum的分析。通过数字化过去几个赛季的比赛，它创造了预测模型，让教练能够区分，正如首席执行官Rajiv Maheswaran所说的那样，“一个投篮得厉害的射手和一个投篮不好的射手” - 并根据此进行调整自己的决策。

再也没有比通用电气公司更古老、更传统的公司了，这是道琼斯工业股票平均价格指数原始股中唯一一家上市119年之后依然健在的公司。通用电气公司通过处理从深海油井或喷气发动机收集的数据来优化性能、预测故障和简化维护工作，从而已经赚了数亿美元。但去年年底从IBM软件中作为软件研究的副总裁科林·帕里斯加入通用电气公司后，认为持续的数据处理能力的提高，传感器和预测算法的不断进步将很快使他的公司有同样的锐利的洞察力，谷歌目前已经进入了一个来自西好莱坞的24岁网民的在线行为。

2.北美以外的地方怎么样？

在欧洲，十几家银行用机器学习技术取代了旧的统计建模方法，在某些情况下，新产品的销售额增长了10％，资本支出节省了20％，现金收入增加了20％，流失率下降20％。这些银行通过为零售业和中小型公司的客户设计新的推荐引擎，实现了这些收益。他们还建立了微目标模型，可以更准确地预测谁将取消贷款服务或造成贷款违约，以及如何最好地进行干预。

言归正传，正如在最近的麦肯锡季刊中的一篇文章指出，我们的同事一直尝试将硬分析应用到人才管理的软材料中。去年秋天，他们测试了三种算法的能力，一种有外部供应商开发，一种由内部构建，仅通过检查扫描的简历，就能预测到该公司将接受的10,000多名潜在的新员工。这些预测与现实世界的结果密切相关。有趣的是，这些机器接受的女性候选人比例略高，这为使用分析来解锁更多样化的个人资料和对抗隐藏的人类偏见而带来了希望。

随着越来越多的虚拟世界被数字化，我们通过开发和测试算法从数据中学习的能力对于现在被视为传统业务的东西变得更加重要。谷歌首席经济学家哈尔·瓦里安称此为“计算机改善。”因为“大规模生产改变了产品组装的方式，持续的改进也改变了制造的方式”他说，“因此，持续（往往是自动）实验将改善我们优化组织业务流程的方式“

来自麦肯锡的<a href='/map/jiqixuexi/' style='color:#000;font-size:inherit;'>机器学习</a>的指南

3.机器学习的早期基础是什么？

机器学习基于许多早期构建块，从经典统计开始。统计推断确实形成了当前人工智能实现的重要基础。但重要的是要认识到，经典统计技术是在18世纪到20世纪初之间发展起来的，其使用的数据集比我们现在使用的数据集要小得多。机器学习不受预设的统计假设的限制。因此，它可以产生人类分析师自己看不到的洞察力，并以更高的准确度进行预测。

最近，在20世纪30年代和40年代，计算机的先驱（例如对人工智能有深刻和持久兴趣的艾伦图灵）开始制定和修补神经网络等基本技术，使今天的机器学习成为可能。但是这些技术在实验室中停留的时间比许多技术都要长，并且在大多数情况下，必须等待20世纪70年代末和80年代初的强大计算机的开发和基础设施。这可能是机器学习采用曲线的起点。引入现代经济的新技术 - 例如蒸汽机，电力，电动机和计算机 - 似乎需要大约80年才能从实验室过渡到你可能称之为文化隐形的东西。计算机目前还没有从人们的视线中消失，但很有可能会在2040年消失，机器学习可能很快就退居幕后了。

4.机器学习入门需要什么？

如果C级管理人员将机器学习视为制定和实施战略愿景的工具，他们将最好地利用机器学习。但这意味着将战略放在首位。如果没有战略作为起点，机器学习就有可能成为公司日常运营中被埋没的工具：它将提供有用的服务，但其长期价值可能仅限于无休止地重复“千篇一律”应用，如模型获取，激励和客户留存的模型。

我们发现，这与并购有相似之处并且具有指导意义。毕竟，这是一个明确定义的手段。没有明智的企业会匆忙的进行一连串的收购或合并，然后只是坐下来看看会发生什么。从事机器学习的公司应该在进行并购之前做出公司所做的三项承诺。首先，这些承诺是调查所有可行的替代方案; 第二，全心全意地在高管层面推行这一战略; 第三，使用（或必要时获得）高级管理人员的现有专业知识和知识来指导该战略的应用。

负责创建战略愿景的人很可能（或曾经）是数据科学家。但是，当他们确定问题和战略的预期结果时，他们需要C级同事的指导，监督其他关键的战略计划。更广泛地说，公司必须有两种类型的人才能释放机器学习的潜力。“定量分析师”学习其语言和方法。“翻译人员”可以通过将定量分析师的复杂结果重新定义为管理者可以执行的可操作的见解，从而在数据、机器学习和决策制定学科之间架起桥梁。

有效的机器学习需要获得大量有用和可靠的数据，例如Watson在测试中能够比医生更好地预测肿瘤学结果，或Facebook最近成功地教会计算机，以便像人类一样准确地识别特定的人脸。真正的数据战略始于识别数据中的差距，确定填补这些差距所需的时间和资金，以及打破数据孤岛。很多时候，各部门都在囤积数据，并将获取信息的途径政治化- 这是一些公司创建首席数据官这个新角色来整合所需要的信息的原因之一。其他要素包括将生成数据的责任交给一线的管理人员。

从小初招收，寻找更容易摘到的果实，并宣传任何早期的成功。这将有助于招募基层支持，并加强个人行为和员工参与的变化，最终决定组织是否可以有效地应用机器学习。最后，根据明确的成功标准进行评估结果。

5.高层管理人员的作用是什么？

行为改变至关重要，高层管理人员的关键角色之一就是影响和鼓励这种改变。例如，传统管理人员必须适应对自己的A / B测试方面的变化，这是数字公司使用的技术，用于了解对在线消费者有吸引力的内容或者说无法吸引消费者的内容。拥有越来越强大的计算机洞察力的一线管理人员必须学会自己做出更多决策，高层管理人员设定总体方向，只有在出现时才会进行关注。将分析的使用民主化 - 为一线提供必要的技能并设置适当的激励措施以鼓励数据共享 - 而这需要时间。

C级官员应该分三个阶段考虑应用机器学习：机器学习1.0,2.0和3.0 - 或者，我们更喜欢说，描述，预测和处理。他们可能不需要担心大多数公司已经完成的描述阶段。这完全是为了收集数据库中的数据（必须为此目的而发明），这一发展为管理者提供了对过去的新见解。OLAP-在线分析处理 - 现在已经非常常规，并且在大多数大型组织中已经建立。

现在更迫切的是要进入预测阶段，而这个阶段也正在发生。今天的尖端技术已经使企业不仅可以查看其历史数据，还可以预测未来的行为或结果 - 例如，通过帮助银行的信用风险官员评估哪些客户最有可能违约或启用电信公司预计哪些客户在短期内特别容易“流失”（展览）。

高级管理层在开始预测阶段时经常关注的是数据的质量。这种担忧经常使高管瘫痪。然而，根据我们的经验，过去十年的IT投资为大多数公司提供了足够的信息，以便从不完整的，凌乱的数据集中获得新的见解，当然前提是这些公司选择了正确的算法。与现有数据仓库中开采的数据源相比，添加外来的新数据源可能只会带来很少的好处。面对这一挑战是“首席数据科学家”的任务。

处理 - 机器学习的第三个也是最先进的阶段 - 是未来的机会，因此必须引起高层的高度重视。毕竟，仅仅预测客户将会做什么是不够的; 只有理解为什么他们打算这样做，公司才能鼓励或阻止未来的行为。从技术上讲，今天的机器学习算法，在人工翻译的帮助下，已经可以做到这一点。例如，一家关注其零售业务违约规模的国际银行最近确定了一组客户，他们在突然从白天使用信用卡转为在半夜使用信用卡。这种模式伴随着储蓄率急剧下降。在咨询了分行经理之后，银行进一步发现，以这种方式行事的人们也在应对最近的一些压力事件。因此，所有被算法标记为该微观成员的客户都会自动获得信用卡的新限制并提供财务建议。

机器学习的处理阶段，开创了人机协作的新时代，需要我们工作方式的最大变化。虽然机器识别模式时，人工翻译人员的责任是将其解释为不同的微段解释模式，并建议相应的操作过程。在这里，高管必须直接参与设计和指定这些算法试图优化的目标。

6.从长远来看，这听起来像是自动化取代了人类。我们是否更接近于知道机器是否会取代管理人员？

确实，变革到来的如此之快（数据生成也是如此之快），以至于人与人之间的所有决策参与正在迅速变得不切实际。展望三到五年，我们期望看到更高水平的人工智能，以及分布式自治公司的发展。这些自我激励，自成体系的代理人以公司的形式组成，将能够自主地实现既定目标，而无需任何直接的人为监督。一些DAC肯定会成为自编程。

一种观点认为分布式自治公司对我们的文化具有威胁性和敌意。但是当它们完全发展的时候，机器学习将在文化上变得隐形，就像20世纪的技术发明消失在当前的文化背景中一样。人类的角色将是指导和指导算法，当它们实现给定的目标时。这也是在2008年金融危机期间造成这种损害的自动交易算法的一个教训

无论计算机发现什么新的见解，只有人力资源管理者才能决定基本问题，例如公司真正想要解决的关键业务问题。正如人类同事需要定期审查和评估一样，这些“精彩的机器”及其作品也需要定期评估，改进，甚至可能被解雇或被告知要走跟之前完全不同的道路- 这需要有经验，判断和领域专业知识的高管。

获胜者既不是机器，也不是人类，而是两者有效地合作。

7.所以从长远来看，没有必要担心？

很难确定，但分布式自治公司和机器学习应该在高级管理层议程中占据重要位置。我们期待有一个，关于什么是智能、人工智能或其他智能的讨论将会结束，因为不存在智能这种东西，它只是人类发展的一个过程。如果分布式自治公司能过智能地行动，智能地执行并且智能地响应，我们将停止争论是否存在除人类之外的高级智能。与此同时，我们都必须考虑我们希望这些实体做什么，我们希望它们的行为方式，以及我们如何与它们合作。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

机器学习人工智能神经网络数据仓库大数据数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇深圳赏给我的耳光：说到底，生活就是一场接着一场的较量

下一篇如何教机器思考他们所看到的？

来自麦肯锡的机器学习指南

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【干货】“数据又崩了”？其实是你还不会做归因分析 ...

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...