作者 | George Lawton
编译 | CDA数据科学研究院
大多数AI都基于模式识别,但是正如任何高中生都会告诉您的那样,关联不是因果关系。研究人员现在正在寻找方法,以帮助AI深入到更深层次。生活经验告诉我们,相关关系并不能直接推导出因果关系,但不管是日常生活还是学术研究,对于因果关系的解释要远比相关关系重要得多。很多时候,我们也会对事件之间的因果关系捉襟见肘。如果,把这个过程交给AI来处理会怎样呢?
AI可以利用深度学习技术来构建相关关系模型。深度学习技术通过关联数据点在构建模型方面做得很好。但是许多AI研究人员认为,需要更多的工作来理解因果关系,而不仅仅是相关性。现场因果深度学习(对确定某件事发生的原因很有用)仍处于起步阶段,并且自动化比神经网络困难得多。许多AI都是关于在大量数据中查找隐藏模式的。全球IT服务公司L&T Infotech的执行副总裁兼首席数据分析官Soumendra Mohanty说:“显然,这方面将我们带向了“什么”,但很少有人去理解“为什么”。
这种区别的含义可能很重要。最终,要创造出模仿人类智能的机器,就需要训练AI来询问为什么一种观察会影响另一种观察。这就是为什么许多研究人员现在将注意力转向这个问题的原因。
加州大学洛杉矶分校(UCLA)教授朱迪亚·珀尔(Judea Pearl)激发了该领域的兴奋,他从事了一些实施贝叶斯网络以进行统计分析的形成性工作。最近,他一直在开发一个框架,用于绘制因果关系图,并在可计算框架中找出导致观察到的事件的因素。
分析因果关系的最大挑战之一是将范式更改为一种,其中专家对观察的原因提出主观意见,然后通过各种分析技术将其分开。这与统计机器学习所追求的更加客观的方法形成了鲜明的对比。从长远来看,因果关系研究可以为理解世界提供更好的模型。在短期内,因果分析将使解释机器学习模型为何能提供结果的原因变得更加容易。
克服魔术思维
Information Builders营销副总裁杰克·弗赖瓦尔德(Jake Freivald)说:“商业精英通常不相信黑盒子技术,但他们却对人工智能技术有着异乎寻常的期待。”他表示,企业家意识到将业务流程交给人工智能算法可能就像让他们两岁的孩子驾驶自己的汽车一样冒险。
问题在于分析和AI主要用于查找数据集中的相关性。由于关联仅暗示因果关系,因此这些关联无法帮助您理解发生某事的原因-如果无法做到,则只能告诉您接下来会发生什么的可能性。
弗赖瓦尔德说:“我们越能发现模型中的因果关系,在评估事情发生的原因和下一步将发生的事情时,我们就越能基于现实。” “在那之前,将我们的业务交托给AI模型可能会非常有效,直到失败为止,结果可能是灾难性的。”
超越曲线拟合
曲线拟合在回答“下一个最佳报价是什么?”、“这是欺诈吗?” 或“是猫吗?”等重要问题方面做得很好。莫汉蒂说:“但是,在现实世界中,有很多问题无法通过曲线拟合来解决。” 如果有几个因素可以预测对产品的偏爱,那么企业应该尝试影响哪个因素,以及重要性的顺序如何?简单地对不同变量的预测目标能力进行排名与选择独立预测变量并评估其对结果的相对贡献不同。
莫汉蒂说:“我们可以观察到相关性,但这并不能证明甚至暗示因果关系。” 因果关系回答的问题是“我应该拉什么杠杆来实现改变?” 或“如果我更改了模型的某些基本假设,将会发生什么?”
因果深度学习技术(也称为结构方程模型(SEM))已经存在了很多年。莫汉蒂说:“但是,这些技术或多或少地局限于学术界和研究领域,我们还没有看到这些技术可以转化为商业或商业用例。”
蒙特卡洛模拟,马尔可夫链分析,朴素贝叶斯和随机建模是当今使用的一些技术,但它们几乎没有涉及因果关系的表面。还有一些开源软件包,例如DAGitty(基于浏览器的环境,用于创建,编辑和分析因果模型),以及Microsoft的DoWhy库以进行因果推断。但是这些也在发展。
用AI灌装经验法则
自主库存管理系统制造商Pensa Systems的首席执行官兼总裁Richard Schwartz表示,在较高的层次上,AI应用程序会根据观察到的模式执行一系列操作。深度学习使用统计技术来发现模式。在因果关系中嵌入因果理解的另一种方法涉及开发基于规则的系统。这种方法从其他类型的客观事实中得出结论,例如“向右转3次与向左转相同”。
规则可以是因果关系的,也可以是认知的,可以帮助对输入的结果进行建模,但是它们也有缺点。Schwartz说:“因果规则很难被理解,即使您确实定义了因果规则,它们也会变得更加脆弱。”潜在的解决方案在于两种方法的结合-例如,为神经网络创建可解释性。这种类型的因果深度学习涉及以更加艰苦的方式建立关于如何得出结论的认知模型。
AI引起人们注意的另一种因果技术是一种强化学习,称为从示范学习(Learning from demonstration)。这种方法有效地显示了如何完成某事的计算机示例,并使计算机尝试使该技术适应其自身的问题解决方法。
Pensa在其库存管理工具中同时使用两种AI,以解决与在商店货架上重新库存库存有关的问题。该公司的主要产品使用神经网络来解释来自摄像机和货架上物品的计算机视觉输入(例如,亨氏番茄酱)以及货架的组织方式(例如,亨氏通常位于亨特的旁边)。
它还使用因果模型来生成自动提示,例如“ Heinz电量不足”或“ Heinz电量完全耗尽”。为了得出这个结论,系统不仅需要产品,还需要与货架上需要的物品以及重新库存的意义有关的规则。人们非常擅长认知结论,例如制定规则拇指,从而可以得出结论。Schwartz说:“ Pensa用AI来装瓶。”
无模型因果关系
德克萨斯大学奥斯汀分校的AI助理教授Scott Niekum表示,强化学习本质上是因果关系,因为代理会尝试不同的动作并通过反复试验来了解它们如何影响性能。这种类型的学习称为“无模型”学习,之所以流行,是因为它可以学习积极或有效的行为,而不必学习明确的世界运转模式。换句话说,它只是在学习行为与绩效之间的因果关系,而不是行为如何直接影响世界。例如,这可能涉及了解在不了解水与火之间的关系的情况下将整个水桶翻转到火上而将其扑灭的情况。
无模型学习是一把双刃剑。如果没有模型,则代理商可能必须从头开始学习如果问题完全改变时如何实现其目标。在较早的示例中,如果为代理提供了软管而不是一桶水,则不从头开始学习就不会知道该怎么做,因为它没有学习水与火之间的因果关系,而只是学习了这种关系在“翻转斗”动作和灭火目标之间。
Niekum说:“由于这些原因,尽管基于模型的强化学习有其自身的挑战,但人们对它的兴趣越来越大。例如,您如何衡量对模型的信心,当模型出错时该怎么办?试图跨越长远视野时,您会处理不确定性吗?”
解释ML模型
可解释性的核心思想是,解释必须能够识别和量化导致深度学习模型行为的所有因果关系。在这一点上,因果关系指的是模型功能本身,而不是模型要解决的任务,Fiddler Labs的数据科学负责人Ankur Taly说,该研究提供了可解释的AI引擎。
由于其复杂性,忠实地解释深度学习模型具有挑战性。这使得很难分析推理模型功能中每个功能的重要性。早期的因果深度学习方法通过在数据集上观察模型的预测,并为其拟合一个更简单,可解释的模型来获得解释,从而应对了这一挑战。塔利说:“不幸的是,这样的方法容易受到众所周知的从观测数据中推断因果关系的陷阱。” 人们无法从与模型相关的特征中分离出与模型预测真正相关的特征。
最近,出现了一组基于合作博弈的Shapley值的不同方法。这些方法使用反事实输入来探查模型。但是,Fiddler的研究发现,如果数据集存在偏差,那么大多数方法都可能导致偏差。塔利说,他们正在研究将模型解释与任何特定数据集分离的方法。这种研究可以帮助识别模型已学会依赖的虚假关联。例如,黑客最近展示了通过添加某些类型的数据来伪造Cylance反恶意软件引擎的功能。减轻此风险的一个好步骤是确定显着影响模型预测的因果特征。塔利说:“然后,人们可以研究这些功能,以检查它们是否也是任务的诱因,或者是否可以被对手利用,例如Cylance。”
教学AI迷信
如今,在指导深度学习过程建立因果关系建模方面,人类可以比AI做得更好。InformationBuilders的Freivald说。这可能涉及限制数据集,删除可能导致偏差的字段以及通常影响学习过程的过程。人类专注于因果关系,而算法则负责学习。有一个反馈回路,但人的方面至关重要。
如果可以通过AI工具确定因果关系,则AI可以塑造学习过程,而不是由人来做。从理论上讲,AI可以开始使用任意数据集,确定因果关系并以人类会完全忽略的方式应用学习。目前有很多问题。人类将通用智能应用于任务,而机器尚无法做到这一点。最近这样做的尝试造成了麻烦。弗赖瓦尔德说:“我们希望人工智能越通用,它就需要越多的数据,并且出现误报的可能性就越大-机器迷信。”
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16