如何更换网站模板,铁岭网站开发公司,软件工程师是做什么的,律师网站 扁平化前置知识#xff1a;RNN#xff0c;Attention机制
在一般任务的Encoder-Decoder框架中#xff0c;输入Source和输出Target内容是不一样的#xff0c;比如对于英-中机器翻译来说#xff0c;Source是英文句子#xff0c;Target是对应的翻译出的中文句子#xff0c;Attent…前置知识RNNAttention机制
在一般任务的Encoder-Decoder框架中输入Source和输出Target内容是不一样的比如对于英-中机器翻译来说Source是英文句子Target是对应的翻译出的中文句子Attention机制发生在Target的元素和Source中的所有元素之间。
Self-Attention是在Source内部元素或者Target内部元素之间发生的Attention机制也可以理解为TargetSource这种特殊情况下的注意力计算机制相当于是QueryKeyValue计算过程与Attention一样。
作用
Self-Attention模型可以理解为对RNN的替代有着以下两个作用 引入Self-Attention后会更容易捕获句子中长距离的相互依赖的特征。Self-Attention在计算过程中会直接将句子中任意两个单词的联系通过一个计算步骤直接联系起来所以远距离依赖特征之间的距离被极大缩短有利于有效地利用这些特征。 Self Attention对于增加计算的并行性也有直接帮助作用。正好弥补了attention机制的两个缺点这就是为何Self Attention逐渐被广泛使用的主要原因。 对于计算并行性的分析 Self-Attention使得Attention模型满足 其中 dk是Q和K的维度矩阵中向量的个数即列数
对于位置信息的分析 这个位置信息ei不是学出来的在paper里是人手设置出来的每个位置都不一样代表在第几个positon。
我们构造一个p向量这是一个one-hot向量只有某一维为1代表这个单元是第几个位置。 我们和x进行拼接再进行w的运算得到a它又等价于右边的公式相当于aiei