作者|Olah & Carter
编译|CDA数据分析师
Attention and Augmented Recurrent Neural Networks
循环神经网络是深度学习的主要内容之一,允许神经网络处理文本,音频和视频等数据序列。它们可用于将序列分解为高级理解,注释序列,甚至从头开始生成新序列!
基本的RNN设计与较长的序列相悖,但是一种特殊的变体 - “长期短期记忆”网络 - 甚至可以使用这些。已经发现这样的模型非常强大,在许多任务中实现了显着的结果,包括翻译,语音识别和图像字幕。结果,在过去几年中,递归神经网络变得非常普遍。
在发生这种情况时,我们已经看到越来越多的尝试用新属性来增强RNN。四个方向特别令人兴奋:
单独地,这些技术都是RNN的有力扩展,但真正引人注目的是它们可以组合在一起,而且似乎只是在更广阔的空间中得分。此外,它们都依赖于相同的潜在技巧 - 一种叫做注意力的工作。
我们的猜测是,这些“增强型RNN”将在未来几年扩展深度学习能力方面发挥重要作用。
神经图灵机
神经图灵机将RNN与外部存储器组合在一起。由于向量是神经网络的自然语言,因此内存是向量数组:
但阅读和写作如何运作?挑战在于我们希望使它们具有差异性。特别是,我们希望使它们在我们读取或写入的位置方面具有可区分性,以便我们可以了解读写的位置。这很棘手,因为内存地址似乎基本上是离散的。NTM为此采取了一个非常聪明的解决方案:每一步,它们在任何地方读写,只是在不同程度上。
作为一个例子,让我们专注于阅读。RNN不是指定单个位置,而是输出“注意力分布”,描述我们如何分散我们关心不同记忆位置的量。因此,读取操作的结果是加权和。
同样,我们一次到不同程度地写到处。同样,注意力分布描述了我们在每个位置写了多少。我们通过使存储器中的位置的新值成为旧存储器内容和写入值的凸起组合来实现这一点,其中两者之间的位置由注意力量决定。
但是,NTM如何决定将记忆中的哪些位置集中注意力?它们实际上使用两种不同方法的组合:基于内容的注意力和基于位置的注意力。基于内容的关注允许NTM搜索他们的内存并专注于与他们正在寻找的内容匹配的位置,而基于位置的注意允许内存中的相对移动,使NTM循环。
这种读写功能允许NTM执行许多以前超出神经网络的简单算法。例如,他们可以学习在内存中存储一个长序列,然后循环遍历它,重复重复它。当他们这样做时,我们可以看到他们读写的地方,以便更好地了解他们正在做的事情:
他们还可以学习模仿查找表,甚至学习排序数字(尽管他们有点欺骗)!另一方面,他们仍然不能做很多基本的事情,比如加或加数。
自最初的NTM论文以来,已有许多令人兴奋的论文探索类似的方向。神经GPU克服了NTM无法增加和增加数字的问题。 Zaremba和Sutskever 训练NTM使用强化学习而不是原始使用的可微分读/写。神经随机存取机基于指针的工作。一些论文探讨了可区分的数据结构,如堆栈和队列。和内存网络是另一种攻击类似问题的方法。
在某种客观意义上,这些模型可以执行的许多任务 - 例如学习如何添加数字 - 并不客观地难以实现。传统的节目综合社区将在午餐时吃它们。但是神经网络还有许多其他功能,像神经图灵机这样的模型似乎已经对他们的能力产生了极大的限制。
代码
这些模型有许多开源实现。神经图灵机的开源实现包括Taehoon Kim(TensorFlow),Shawn Tan(Theano),Fumin(Go),Kai Sheng Tai(火炬)和Snip(Lasagne)。神经GPU出版物的代码是开源的,并放在TensorFlow模型库中。Memory Networks的开源实现包括Facebook(Torch / Matlab),YerevaNN(Theano)和Taehoon Kim(TensorFlow)。
注意接口
当我翻译一个句子时,我特别注意我正在翻译的这个词。当我正在录制录音时,我会仔细聆听我正在积极写下的片段。如果你让我描述我正坐在那里的房间,我会瞥一眼我正在描述的物体。
神经网络可以使用注意力实现相同的行为,专注于他们给出的信息子集的一部分。例如,RNN可以通过另一个RNN的输出参加。在每个时间步,它侧重于其他RNN中的不同位置。
我们希望注意力是可以区分的,这样我们就可以学会在哪里集中注意力。要做到这一点,我们使用神经图灵机使用的相同技巧:我们专注于各处,只是不同程度。
注意力分布通常是基于内容的注意力产生的。出席的RNN生成描述其想要关注的内容的查询。每个项目都使用查询进行点生成,以生成分数,描述它与查询的匹配程度。将得分输入softmax以产生注意力分布。
RNN之间关注的一个用途是翻译 。传统的序列到序列模型必须将整个输入分解为单个向量,然后将其扩展回来。注意通过允许RNN处理输入传递关于它看到的每个单词的信息来避免这种情况,然后RNN生成输出以在它们变得相关时关注单词。
RNN之间的这种关注还有许多其他应用。它可以用于语音识别,允许一个RNN处理音频,然后让另一个RNN略过它,在生成成绩单时关注相关部分。
这种关注的其他用途包括解析文本 ,它允许模型在生成解析树时浏览单词,以及进行对话建模 ,它让模型在生成响应时关注对话的前面部分。
注意也可以用在卷积神经网络和RNN之间的接口上。这允许RNN每一步都查看图像的不同位置。这种关注的一种流行用途是用于图像字幕。首先,conv网络处理图像,提取高级特征。然后运行RNN,生成图像的描述。由于它在描述中生成每个单词,RNN侧重于conv网对图像相关部分的解释。我们可以明确地想象这个:
更广泛地说,只要想要与其输出中具有重复结构的神经网络接口,就可以使用注意界面。
已经发现注意界面是一种非常通用且功能强大的技术,并且正变得越来越普遍。
自适应计算时间
标准RNN对每个时间步进行相同的计算量。这似乎不直观。当事情艰难时,人们应该多考虑一下吗?它还限制RNN对长度为n的列表进行O(n)运算。
自适应计算时间是RNN每步执行不同计算量的一种方法。全局的想法很简单:允许RNN为每个时间步进行多个计算步骤。
为了让网络了解要执行的步骤数,我们希望步数可以区分。我们使用之前使用的相同技巧实现了这一点:我们不是决定运行一系列离散步骤,而是通过运行步骤数来分配注意力。输出是每个步骤的输出的加权组合。
还有一些细节,在上图中省略了。这是一个包含三个计算步骤的时间步骤的完整图表。
这有点复杂,所以让我们一步一步地完成它。在高级别,我们仍在运行RNN并输出状态的加权组合:
每个步骤的重量由“停止神经元”决定。它是一个S形神经元,它看着RNN状态并给出一个停止的重量,我们可以将其视为我们应该在该步骤停止的概率。
暂停权重为1的总预算,因此我们跟踪顶部的预算。当它达到低于epsilon时,我们停止。
当我们停下来时,可能会有一些剩余的预算停止,因为当它达到低于epsilon时停止。我们该怎么办呢?从技术上讲,它将被用于未来的步骤,但我们不想计算这些步骤,因此我们将其归因于最后一步。
在训练自适应计算时间模型时,可以在成本函数中添加“思考成本”项。这会使模型对其使用的计算量进行惩罚。你使用这个术语越大,就越需要权衡性能以降低计算时间。
自适应计算时间是一个非常新的想法,但我们相信它和类似的想法将是非常重要的。
代码
目前唯一的自适应计算时间的开源实现似乎是Mark Neumann(TensorFlow)。
神经编辑器
神经网络在许多任务中都很出色,但它们也很难做一些基本的事情,比如算法,这在普通的计算方法中是微不足道的。有一种方法可以将神经网络与正常编程融合在一起,并获得两全其美的效果。
神经程序员是一种方法。它学会创建程序以解决任务。实际上,它学会了生成这样的程序而不需要正确程序的例子。它发现如何制作程序作为完成某项任务的手段。
本文中的实际模型通过生成类似SQL的程序来查询表来回答有关表的问题。然而,这里有许多细节使它有点复杂,所以让我们首先想象一个稍微简单的模型,给出一个算术表达式并生成一个程序来评估它。
生成的程序是一系列操作。每个操作都被定义为对过去操作的输出进行操作。因此,操作可能类似于“在前两步添加操作的输出和在步骤前添加操作的输出。”它更像是一个Unix管道,而不是一个带有变量分配和读取的程序。
该程序由控制器RNN一次生成一个操作。在每个步骤,控制器RNN输出下一个操作应该是什么的概率分布。例如,我们可能非常确定我们想要在第一步执行添加,然后很难确定我们是否应该在第二步增加或分割,依此类推......
现在可以评估由此产生的操作分布。我们不是在每一步都运行单个操作,而是通常运行所有这些操作的注意技巧,然后将输出平均在一起,加权我们运行该操作的概率。
只要我们可以通过操作定义衍生品,程序的输出就可能性而言是可微的。然后我们可以定义一个损失,并训练神经网络以产生能够给出正确答案的程序。通过这种方式,神经程序员学会了在没有良好程序实例的情况下编写程序。唯一的监督是该计划应该产生的答案。
这是神经程序员的核心思想,但本文中的版本回答了有关表格的问题,而不是算术表达式。还有一些额外的巧妙技巧:
神经网络编程器并不是神经网络生成程序的唯一方法。另一个可爱的方法是神经程序员 - 解释器这可以完成许多非常有趣的任务,但需要以正确程序的形式进行监督。
我们认为,弥合传统编程和神经网络之间差距的这个一般空间非常重要。虽然神经网络程序员显然不是最终解决方案,但我们认为从中可以学到很多重要的经验教训。
代码
用于问答的神经程序员的最新版本已由作者开源,并以TensorFlow模型的形式提供。Ken Morishita(Keras)还实现了神经程序员 - 解释器。
总结
从某种意义上说,拥有一张纸的人比没有纸的人聪明得多。具有数学符号的人可以解决他们本来无法解决的问题。访问计算机使我们能够获得令人难以置信的壮举,否则这些壮举将远远超出我们。
一般来说,似乎许多有趣的智力形式是人类的创造性启发式直觉与一些更加清晰细致的媒体(如语言或方程式)之间的相互作用。有时,媒体是物理存在的东西,为我们存储信息,防止我们犯错误,或者计算繁重。在其他情况下,媒体是我们操纵的头脑中的模型。无论哪种方式,它似乎对情报至关重要。
机器学习的最新成果已经开始具有这种风格,将神经网络的直觉与其他东西结合起来。一种方法是人们称之为“启发式搜索”。例如,AlphaGo有一个Go如何工作的模型,并探讨游戏如何在神经网络直觉的指导下发挥作用。同样,DeepMath使用神经网络作为操纵数学表达式的直觉。我们在本文中讨论的“增强型RNN”是另一种方法,我们将RNN连接到工程媒体,以扩展其一般功能。
与媒体互动自然涉及制定一系列行动,观察和采取更多行动。这带来了一个重大挑战:我们如何了解采取哪些行动?这听起来像是强化学习问题,我们当然可以采用这种方法。但强化学习文献实际上正在攻击这个问题的最难版本,其解决方案很难使用。关注的奇妙之处在于它通过部分地采取不同程度的所有动作,为我们提供了一个更容易解决这个问题的方法。这是有效的,因为我们可以设计类似NTM内存的媒体 - 允许分数动作并且可以区分。强化学习让我们走一条路,并尝试从中学习。注意在fork的每个方向上,然后将路径合并在一起。
注意力的一个主要弱点是我们必须在每一步都采取一切“行动”。这会导致计算成本线性增长,就像增加神经图灵机中的内存量一样。你能想到的一件事就是让你的注意力稀少,这样你只需触摸一些记忆。然而,它仍然具有挑战性,因为你可能想要做一些事情,比如你的注意力取决于记忆的内容,并且天真地强迫你去看每个记忆。我们已经看到了一些初步尝试来解决这个问题,例如,但似乎还有很多工作要做。如果我们真的可以让这种亚线性时间注意力发挥作用,那将是非常强大的!
增强型复现神经网络以及潜在的注意力技术令人难以置信。我们期待看到接下来会发生什么!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“最近复购率一直在下降,我们的营销力度不小啊,为什么用户还是走了?” “是不是广告投放的用户质量不高?还是我们的产品问题 ...
2025-02-21以下文章来源于数有道 ,作者数据星爷 SQL查询是数据分析工作的基础,也是CDA数据分析师一级的核心考点,人工智能时代,AI能为 ...
2025-02-19在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-18当数据开始说谎:那些年我们交过的学费 你有没有经历过这样的场景?熬了三个通宵做的数据分析报告,在会议上被老板一句"这数据靠 ...
2025-02-17数据分析作为一门跨学科领域,融合了统计学、编程、业务理解和可视化技术。无论是初学者还是有一定经验的从业者,系统化的学习路 ...
2025-02-17挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-17近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的, ...
2025-02-14一秒精通 Deepseek,不用找教程,不用买资料,更不用报一堆垃圾课程,所有这么去做的,都是舍近求远,因为你忽略了 deepseek 的 ...
2025-02-12自学 Python 的关键在于高效规划 + 实践驱动。以下是一份适合零基础快速入门的自学路径,结合资源推荐和实用技巧: 一、快速入 ...
2025-02-12“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩 ...
2025-02-08活动介绍 为了助力大家在数据分析领域不断精进技能,我们特别举办本期打卡活动。在这里,你可以充分利用碎片化时间在线学习,让 ...
2025-02-071、闺女,醒醒,媒人把相亲的带来了。 我。。。。。。。 2、前年春节相亲相了40个, 去年春节相亲50个, 祖宗,今年你想相多少个 ...
2025-02-06在数据科学的广阔领域中,统计分析与数据挖掘占据了重要位置。尽管它们常常被视为有关联的领域,但两者在理论基础、目标、方法及 ...
2025-02-05在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-02-05当我们只有非常少量的已标记数据,同时有大量未标记数据点时,可以使用半监督学习算法来处理。在sklearn中,基于图算法的半监督 ...
2025-02-05考虑一种棘手的情况:训练数据中大部分样本没有标签。此时,我们可以考虑使用半监督学习方法来处理。半监督学习能够利用这些额 ...
2025-02-04一、数学函数 1、取整 =INT(数字) 2、求余数 =MOD(除数,被除数) 3、四舍五入 =ROUND(数字,保留小数位数) 4、取绝对值 =AB ...
2025-02-03作者:CDA持证人 余治国 一般各平台出薪资报告,都会哀嚎遍野。举个例子,去年某招聘平台发布《中国女性职场现状调查报告》, ...
2025-02-02真正的数据分析大神是什么样的呢?有人认为他们能轻松驾驭各种分析工具,能够从海量数据中找到潜在关联,或者一眼识别报告中的数 ...
2025-02-01现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31