如何将机器学习应用于实际的业务问题-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读如何将机器学习应用于实际的业务问题

如何将机器学习应用于实际的业务问题

2020-03-02

作者 | Daniel Faggella

编译 | CDA数据分析师

自2012年以来，很容易看到风险投资，会议和与业务相关的“机器学习”查询的广泛普及-但大多数技术主管通常很难确定他们的业务可能将机器学习（ML）实际应用于业务问题的位置。

随着每周创建新的AI流行语，似乎很难掌握哪些应用程序是可行的，哪些是炒作，夸张或骗局。

在本文中，我们将分解ML通常处理的业务问题的类别，并且还将提供可行的建议，以正确的方法和观点开始ML计划（即使这是您执行的第一个此类项目）在您的公司）。

最重要的是，我们将参考真实的业务用例，以及来自我们的AI研究人员和执行人员网络的“如何用ML解决业务问题”的引用和观点。到本文结尾，您将对ML是否可以很好地解决您当前的任何业务挑战有一个好主意。

*注意：在本文的底部，我以简单语言列出了ML术语的基本词汇表。如果您发现本文中您所不理解的短语或术语，请参阅下面的词汇表，或者，如果您希望我们对本文中的概念更加清楚，请 [与我们联系]

机器学习可以处理哪些类型的业务问题

1 –您要做出的预测（或您要做出的决定）是否足够复杂，以至于首先需要进行ML？

如果有可能构建一套规则或“如果-则情景”来完全解决您的问题，那么可能根本就不需要ML。此外，如果没有成功的先例可将机器学习应用于您要解决的特定问题，那么这可能不是进入ML世界的最佳途径。

出于说明目的，列出一些成熟的机器学习业务用例将很有帮助，以便您（读者）可以提出自己的应用程序构想：

人脸检测： 编写一套“规则”以使机器能够检测人脸是非常困难的（考虑所有不同的肤色，视角，头发/面部毛发等），但是可以训练算法来检测人脸，就像在Facebook上使用的一样。用于面部检测和识别的许多工具都是开源的。以下是使用MATLAB进行面部识别的视频：
电子邮件垃圾邮件过滤器 –某些垃圾邮件过滤器可以通过规则来完成（即，通过明显阻止垃圾邮件专用的IP地址），但是许多过滤是基于与每个特定用户相关的收件箱内容的上下文。大量的电子邮件和大量的用户标记为“垃圾邮件”（标记数据）构成了一个很好的监督学习问题。
产品/音乐/电影推荐 –每个人的偏好都不同，偏好会随着时间而变化。像Amazon，Netflix和Spotify这样的公司使用大量商品（产品，歌曲等）中的评分和参与度来预测任何给定用户可能想要购买，观看或收听的内容。
语音识别 –没有单一的声音组合来专门传达人类的语音，并且各个发音的差异很大–机器学习可以识别语音模式并帮助将语音转换为文本。Nuance Communications（Dragon Dictation的制造商）是当今最知名的语音识别公司之一。
实时出价（在线广告） – Facebook和Google永远无法编写特定的“规则”来确定给定类型的用户最有可能点击哪些广告。机器学习有助于识别用户行为的模式，并确定哪些广告最可能与哪个用户相关。
信用卡购买欺诈检测 –与电子邮件垃圾邮件过滤器一样，只能使用具体规则进行欺诈检测的一小部分。不断使用新的欺诈方法，并且系统必须适应实时检测这些模式，以哄骗与欺诈相关的常见信号。

2 –您是否有新数据和干净数据？

在经验丰富的数据科学专业人员中，“清洁数据胜于大数据”是一个常见的说法。如果您拥有数年前的大量业务数据，则今天可能没有任何意义，尤其是在基本业务流程逐年急剧变化的领域（例如移动电子商务）中。如果您有大量的非结构化数据和脱节数据，那么您可能需要进行太多的“清理”工作，然后才能开始从收集的信息中学习。

UBER机器学习负责人Danny Lange曾经建议刚开始机器学习的公司应从对历史数据应用监督的机器学习开始。查找已经干净且相对较新的数据，并使用带有标签的培训数据开始寻找见解。

请注意，在瞬息万变的领域，肯定需要更新的数据。例如，如果您为宠物用品运行上门送货服务，而您的应用，价格，产品和服务范围在过去六个月中发生了显着变化，那么您需要的最新数据要比蒙大拿州出售房主保险的公司。如果数据与您当前业务的相关趋势和细微差别无关，则不太可能收集预测价值。

3 –您的数据是否已有标签来帮助机器理解它？

虽然无监督学习（请参阅下面的术语表）允许在不使用标签的情况下实现广泛的数据意义的应用，但通常不建议公司在无监督学习中首次应用“跳入”机器学习。ML用例的低调成果很可能是从其历史标记数据中产生的。以下是一些可能有助于读者获得新想法的示例：

Facebook在其平台上拥有数以百万计的带有标签的人脸，这些人脸已经与个人相关联。这使Facebook能够在海量的各种光照条件下从不同角度对数以百万计的面部进行训练，从而在海量标签数据上训练算法，从而可以对算法进行高度优化和调整，以识别特定的人脸。
Google提供数十亿美元的搜索结果，并可以根据其顶部列表的点击率，页面加载时间，特定访问者的页面停留时间以及许多其他因素来评估其搜索结果的有用性和相关性。不可能找到一套严格的规则来显示正确的搜索结果，因此Google的算法可以通过数十亿次每日搜索中的实时互动来了解最佳选择。

4 –您对这个问题的解决方案可以容忍一些错误吗？

ML可能被认为是一种“技能”，就像人们可以将其应用于人类一样。一种技能，可以根据经验进行动态调整，适应和发展。由于这个原因，机器学习解决方案通常会在一定百分比的时间内是不正确的，尤其是当它是由新的或变化的刺激告知时。如果您的任务绝对不允许出现任何错误，则ML可能是该工作的错误工具。

不允许出现错误的应用程序示例可能是旨在读取发票或账单金额然后支付该发票或账单的应用程序。一个字母或一个数字的差异可能意味着多付了您账单原始金额的10倍（如果十进制被解释为在错误的位置），或汇款给了错误的公司（如果发票公司名称未正确注册）。

在上述情况下，某种程度的ML可能有助于“存储”不同类型的账单或发票，但是输入付款金额并发送付款的最终决定可能需要负责任的人员。

作为一个有趣的警告，位于旧金山的一家名为Roger.ai的初创公司旨在利用自然语言处理和机器视觉来实现账单和支付账单，尽管它在汇款之前将人们拉入了循环。

来自Emerj网络的报价：

为了获得关于“为机器学习选择业务问题”问题的更多观点，我们决定与以前的AI播客访谈对象的网络联系，为我们的业务读者提供更多指导：

Ben Waber博士-麻省理工学院博士-Humanyze（人工智能技术的人分析公司）首席执行官：

“ 任何具有硬数据，可变性和大量示例的业务问题。”

Danko Nikolic博士-奥克拉荷马大学博士学位-计算机科学公司的数据科学和BD＆A：

“ 1。公司可以节省很多钱。

2.预测需要许多变量，它们之间复杂的非线性关系，在某些情况下是高度随机的。因此，通常只有算法才能了解这些关系。光是人类就很难。”

Charles Martin博士-芝加哥大学博士-计算咨询公司首席执行官：

“ 最好的问题是存在一个庞大的历史数据集，这些数据集既包含丰富的功能，又包含可以用于构建的直接反馈以及可以轻松实施和测试的算法，这将降低运营成本， /或立即增加收入。“

Ronen Meiri博士-特拉维夫大学博士-DMWay首席技术官兼创始人

：“大多数企业的问题可以采用两种机器学习方法妥善解决 1 日：‘什么可能会发生’ 和 2 次：“什么是...未来的预期值？”。

第一个是分类类型问题，其中包括对在许多其他用例中可能流失，违约，购买，出售的人进行分类。

第二个问题是期望值问题，该问题可以通过回归解决，并且可以针对各种用例（如定价优化和预测生命周期价值）提供准确的预测。”

彼得·沃斯（Peter Voss）-AGI创新公司首席执行官：

（首先，彼得引用乔治·梅森大学教授罗宾·汉森博士的话：“优秀的CS专家说：大多数认为自己想要高级AI / ML的公司实际上只需要对清理后的数据进行线性回归。”）

“我认为大多数企业都没有理由在ML / DL上进行投资（当然，ML意味着很多事情）。每个人都在谈论的最前沿内容需要大量数据和专业知识，并且是静态的，即，当数据或类别更改时，需要对其进行重新培训。”

线性回归是最古老，最简单且广泛使用的机器学习模型之一。一些研究人员认为，至少在最初，许多中间预测问题可能只需要基本方法即可。图片由MathWorks提供。

彼得的评论是恰当的，不应掉以轻心。当ML因其流行和流行而被人们抢走时，它不可能产生显着的结果。找到最适合您的底线需求的工具；ML可能不是满足业务或增长目标所需的解决方案。

这使我们进入了本指南的第二个主要部分：

将机器学习应用于业务问题的指针

1 –从优先级问题开始，而不是玩具问题

在与查尔斯·马丁（Charles Martin）博士（湾区AI顾问）的场外对话中，他提到许多公司热情地阅读了有关ML的内容，并决定“找到某种使用它的方法。”这导致团队没有真正的动力。或追求（或承诺的资源）以驱动实际结果。选择一个非常重要的业务问题，并且似乎很有可能得到解决

UBER的Danny Lange从一开始就提到，有一个思维过程很可能会产生富有成果的机器学习用例思想：“如果我们只知道____。”

问问自己，您想知道哪些关键业务信息，但当前无法访问？也许是在了解最有可能产生最高客户生命周期价值的潜在客户来源，或者最能表明预期客户流失的用户行为。

2-您可以给它数据，但是所有上下文都必须来自您

想想要“馈送”您的算法的信息并不像假定的那么容易。机器学习算法虽然擅长识别相关性，但他们无法理解围绕数据的事实，这些事实可能使数据变得相关或不相关。以下是“上下文”如何阻碍开发有效的ML解决方案的一些示例：

预测电子商务客户的生命周期价值： 可以为算法提供有关历史客户生命周期价值的数据，而无需考虑通过运行了两年以上但未能实现收支平衡的电话外联计划与许多生命周期最高价值的客户进行了联系，尽管产生了新的销售。如果这样的电话跟进计划不会成为未来电子商务销售增长的一部分，那么这些销售就不应该被提供给机器。
确定医疗恢复时间： 数据可能会提供给机器，以确定对一级或二级烧伤患者的治疗方法。该机器可以预测，许多二级烧伤受害者将只需要与一级烧伤受害者一样多的时间，因为它没有考虑到二级烧伤受害者过去获得的更快，更重的护理。上下文本身不在数据本身中，因此计算机仅假设第二度的烧伤愈合速度与第一度一样快。
推荐相关产品： 电子商务零售商的推荐引擎过度推荐特定产品。研究人员直到后来才发现该产品在一年多以前得到了大力推广，因此历史数据表明现有购买者的销售量大幅增加。但是，根据“交易”和低廉的价格，这些促销购买的商品销量更高，而根据客户的实际相关意图则更少。

3 –期望修补，调整和调整以找到投资回报率

构建ML解决方案需要在选择算法，选择数据，清理数据以及在实际环境中进行测试时进行仔细的思考和测试。对于独特而复杂的业务用例，没有“开箱即用”的机器学习解决方案。即使对于极为常见的用例（推荐引擎，预测客户流失），每个应用程序也会有很大差异，并且需要迭代和调整。如果一家公司没有进行长时间的修补就投入了ML项目，那么它可能永远不会取得有用的结果。

来自Emerj网络的报价：

我们再次联系了我们的Emerj受访者和共识受访者网络，以获取有关在企业中实施机器学习的意见和技巧。以下是引号的集合：

Ben Waber博士-麻省理工学院博士-Humanyze（人工智能技术的人分析公司）首席执行官：

“ 您不能使用ML真空解决业务问题。确保您得到业务部门负责人的支持，以根据分析做出具体更改。”

Danko Nikolic博士-奥克拉荷马大学博士学位-计算机科学公司的数据科学和BD＆A：

“ 企业在使用ML时常犯的最常见错误是，他们认为ML解决方案是一站式过程：他们将数据发送给数据科学家，而数据科学家则将模型返回。与此相反，找到好的ML解决方案是一个反复的过程，涉及研究，试验和错误，试验，与业务专家交谈等。

ML永远不可能成为商品。ML的成功在很大程度上取决于做到这一点的人的知识，技能和奉献精神。”

Charles Martin博士-芝加哥大学博士-计算咨询公司首席执行官：

“在您掌握要做什么之前，请避免建立大规模的基础架构。您可以轻松地花费6个月到一年的时间来设置Hadoop和Spark，而不会看到任何投资回报。

如果您5％的数据正确且有用，您将很幸运。您需要设计一个实验，以识别低垂的果实并找出所需的数据。您可以在高内存的AWS节点上构建算法。

将算法放入实时环境中，并尽早对其进行测试。不要构建尝试完整的生产系统。记住，ML是关于数学的，而不是编码！您想测试一下。运行足够的示例来消除问题，但不要太小，以至于统计数据毫无意义。”

Ferris Jumah-以前曾在LinkedIn担任ML-湾区ML顾问：

“尽快获取数据驱动。机器学习不是免费提供的。您需要围绕数据建立直觉，如何衡量业务并了解客户，不仅将度量值链接，还将洞察力链接到决策制定。记录所有内容，构建存储和处理系统，确保它们可访问，对产品进行深入分析和尽可能多的实验，并在尽可能多的产品中内置智能。

在这一点上，消费者期望个性化和“智能”功能。建立它们，向他们学习，并确保您拥有适当的反馈机制。最后，雇用和投资对您的问题和业务充满热情的数据人员。”

共识（在上面引用的数量有限，以及与具有业务头脑的数据科学家进行的其他数十次对话中）是，机器学习不像营销自动化软件那样仅仅是“工具”。任何拥有良好管理者并获得社区大学学士学位的人都可以选择“持续联系”，甚至可以选择（甚至可以稍作修改并致电支持热线）Marketo或Hubspot并提高公司价值。

应用机器学习的迭代，多方面过程没有简单的捷径。图像信誉Microsoft的CortanaIntelligence。

机器学习还没有出现在一个整洁的盒子中，而价值却是由刻苦的思考，实验设计以及（在某些情况下）刻苦的数学创造的。在Google和YouTube上花费一些时间，您可以了解如何为您的企业设置DropBox。通过机器学习预测整个客户群的流失率吗？不一样的游戏。

准备从ML中获得业务价值意味着要有受过训练的人才，专家指导和（通常）巨大的“数据清理”时期-而且，正如马丁博士在上面恰当地指出的那样，这没有保证一定会赢。如果Google，Amazon和Facebook能够让他们的实习生建立ML系统，他们真的会花费数百万美元从学者中挖走世界顶级AI人才来为他们工作吗？

虽然机器学习不是一个简单的设置，但也不是任何有远见的企业都可以离开桌面太长时间。“摇滚明星”技术公司通过机器学习获得的效率是巨大的，而湾区的初创企业不仅因为“机器学习”是一个流行词而获得了资金，还因为它们中的许多公司业务强大而有力案件。

感兴趣的读者可能会从我们最近对26位机器学习/人工智能研究人员达成的共识中受益，我们在其中提出了以下问题：“机器学习应首先应用于商业领域吗？” 该信息图表特色充分体现了本文中强调的许多观点。

高管们面临的最终问题仍然是：我们什么时候才能拥有（a）认真投资于机器学习所需的资源，以及（b）合法的用例，该用例始于试图找到真正的商业价值，而不是从“试图找到一种方法”这是一个无法为您完成的思考过程，但是我们希望本文能够帮助您了解您的观点并为您提供将来借鉴的资源。

机器学习术语表

除非另有说明，否则定义均来自维基百科。

机器学习（ML） –机器学习是使计算机像人类一样学习和行动的科学，通过以观察和真实交互的形式向计算机提供数据和信息，从而随着时间的推移以自主方式改善其学习。
监督学习 –从标记的训练数据中推断功能的机器学习任务。
无监督学习 –机器学习任务，可以推断功能以描述来自未标记数据的隐藏结构。
分类 –根据一组训练数据确定新观测值属于哪一组类别
回归 –一种统计技术，用于估计变量之间的关系（包括线性回归，逻辑回归和其他方法）
算法 -要执行的自成体系的分步操作集。算法执行计算，数据处理和/或自动推理任务。
自然语言处理（NLP） –与计算机和人类（自然）语言之间的交互有关的计算机科学，人工智能和计算语言学领域。