当前位置：首页 > news >正文

巴中网站建设网站推广页面设计公司哪家好

news 2026/5/3 14:59:15

巴中网站建设网站推广,页面设计公司哪家好,重庆好玩的地方,网红包装设计师Attention Is All You Need 摘要1. 简介2. Background3. 模型架构3.1 编码器和解码器堆栈3.2 Attention3.2.1 缩放的点积注意力#xff08;Scaled Dot-Product Attention#xff09;3.2.2 Multi-Head Attention3.2.3 Attention 在我们模型中的应用 3.3 Position-wise前馈网络… Attention Is All You Need 摘要1. 简介2. Background3. 模型架构3.1 编码器和解码器堆栈3.2 Attention3.2.1 缩放的点积注意力Scaled Dot-Product Attention3.2.2 Multi-Head Attention3.2.3 Attention 在我们模型中的应用 3.3 Position-wise前馈网络3.4 Embeddings and Softmax3.5 Positional Encoding 4. Why Self-Attention 代码https://github.com/jadore801120/attention-is-all-you-need-pytorch 单位Google 会议Advances in Neural Information Processing Systems 30 (NIPS 2017) 摘要主要的序列转导模型是基于复杂的循环或卷积神经网络RNN和CNN包括一个编码器和一个解码器。表现最好的模型还通过注意力机制连接编码器和解码器。我们提出了一个新的简单的网络架构Transformer完全基于注意力机制完全摒弃递归和卷积。在两个机器翻译任务上的实验表明这些模型在质量上更优越同时更具并行性并且需要更少的训练时间。我们的模型在WMT 2014 English-to-German 翻译任务上实现了28.4 BLEU比现有的最佳结果(包括集合)提高了2个BLEU以上。在WMT 2014 English-to-French翻译任务中我们的模型在8个gpu上训练3.5天后建立了一个新的单模型最先进的BLEU分数41.0这是文献中最佳模型训练成本的一小部分。 1. 简介递归神经网络RNN特别是长短期记忆LSTM和门控递归神经网络已经被牢固地确立为序列建模和转导问题(如语言建模和机器翻译)的最新方法。循环模型通常沿输入和输出序列的符号位置进行因子计算。将位置与计算时间中的步骤对齐它们生成一个隐藏状态序列h_t作为前一个隐藏状态h_t−1和位置 t 的输入的函数。这种固有的顺序性排除了训练示例中的并行化这在较长的序列长度下变得至关重要因为内存约束限制了跨示例的批处理。然而顺序计算的基本约束仍然存在。注意机制已经成为各种任务中引人注目的序列建模和转导模型的组成部分允许在不考虑它们在输入或输出序列中的距离的情况下对依赖关系进行建模。然而在除少数情况外的所有情况下这种注意机制都与循环网络结合使用。在这项工作中, 我们提出了Transformer,一个模型架构避免了重复,而是完全依赖于一种注意力机制来绘制输入和输出之间的全局依赖关系。 Transformer允许在8 P100 GPUs训练后,能够显著地更平行化,并能达到翻译质量的新状态。 2. Background 减少顺序计算的目标也构成了Extended Neural GPUByteNet 和ConvS2S的基础它们都使用卷积神经网络作为基本构建块并行计算所有输入和输出位置的隐藏表示。在这些模型中将两个任意输入或输出位置的信号关联起来所需的操作数量随着位置之间的距离而增长ConvS2S为线性增长ByteNet为对数增长。这使得学习距离较远位置之间的依赖关系变得更加困难。在Transformer中这被减少到一个恒定的操作数量尽管其代价是由于平均注意加权位置而降低了有效分辨率我们用3.2节中描述的多头注意抵消了这一影响。自我注意Self-attention有时被称为内注意intra-attention 是一种将单个序列的不同位置联系起来以计算该序列的表示的注意机制。自我注意在阅读理解、抽象总结、文本蕴涵和学习任务无关的句子表征等任务中得到了成功的应用。端到端记忆网络基于循环注意机制而不是顺序排列的递归并且在简单语言问答和语言建模任务中表现良好。然而据我们所知Transformer是第一个完全依赖于self-attention来计算其输入和输出表示的转导模型而不使用序列对齐rnn或卷积。 3. 模型架构大多数竞争性的神经序列转导模型具有编码器-解码器结构。这里编码器映射符号表示的输入序列(x1, …, xn)到连续表示序列 z (z1,…,zn)。给定z解码器然后生成一个输出序列(y1,…,ym)每次一个元素的符号。在每一步模型都是自回归的在生成下一个符号时使用之前生成的符号作为附加输入。Transformer遵循这个整体架构使用堆叠的 self-attention 和 point-wise全连接层 for 编码器和解码器分别如图1的左半部分和右半部分所示。 3.1 编码器和解码器堆栈 Encoder: 编码器由N 6个相同层的堆栈组成。每一层有两个子层。第一个是multi-head self-attention机制第二个是简单的、按位置的position-wise全连接前馈网络。我们在每两个子层周围使用残差连接residual connection然后进行层归一化。即各子层的输出为 LayerNorm(x Sublayer(x))其中Sublayer(x)是子层本身实现的函数。为了方便这些残差连接模型中的所有子层以及嵌入层产生的输出维度为d_model 512。Decoder: 解码器也由N 6层相同的堆栈组成。除了每个编码器层中的两个子层之外解码器插入第三个子层该子层对编码器堆栈的输出执行multi-head attention。与编码器类似我们在每个子层周围使用残差连接然后进行层归一化。我们还修改了解码器堆栈中的self-attention sub-layer以防止位置关注后续位置。这种掩蔽再加上输出嵌入被偏移一个位置的事实确保了位置 i 的预测只能依赖于位置小于 i 的已知输出。 3.2 Attention 注意函数可以描述为将查询和一组键值对映射到输出其中查询、键、值和输出都是向量。输出是作为值的加权和计算的其中分配给每个值的权重是由查询与相应键的兼容性函数计算的。 3.2.1 缩放的点积注意力Scaled Dot-Product Attention 我们称这种特殊的关注为 “Scaled Dot-Product Attention”(图2)。输入由维度dk的queries and keys以及维度dv的值组成。我们计算query with all keys的点积将每个值除以“根号下dk”应用softmax函数来获得这些值的权重。在实践中我们同时计算一组queries的注意力函数它们被打包成一个矩阵Q。 keys and values也打包到矩阵K和V中。我们计算输出矩阵为两种最常用的注意函数是加性注意和点积(乘)注意。除了的比例因子外点积注意力与我们的算法相同。加性注意使用一个具有单个隐藏层的前馈网络来计算兼容性函数。虽然两者在理论复杂性上相似但点积注意在实践中要更快、更节省空间因为它可以使用高度优化的矩阵乘法代码来实现。当d_k值较小时两种机制的表现相似当d_k值较大时加性注意优于点积注意。我们怀疑对于较大的d_k值点积的大小会变大从而将softmax函数推入具有极小梯度的区域。为了抵消这种影响我们将点积乘以 3.2.2 Multi-Head Attention 我们发现与其使用d_model维度的keys, values 和 queries执行单一的注意力函数不如将keys, values 和 queries分别以不同的、学习过的线性投影h次线性投影到dk、dk和dv维度这是有益的。然后在queries, keys and values的每个投影版本上我们并行地执行注意力函数生成d维输出值。将它们连接起来并再次进行投影得到最终值如图2所示。多头注意允许模型在不同位置共同注意来自不同表示子空间的信息。对于单一注意力头平均会抑制这一点。在这项工作中我们使用h 8个平行的注意层或头。对于每一个我们使用d_k d_v d_model/h 64。由于每个头部的维数降低因此总计算成本与全维的单头部关注相似。 3.2.3 Attention 在我们模型中的应用 Transformer以三种不同的方式使用多头注意力在“encoder-decoder attention”层中queries来自前一个解码器层而memory keys and values来自编码器的输出。这允许解码器中的每个位置都参与输入序列中的所有位置。这模仿了序列到序列模型中典型的编码器-解码器注意机制。编码器包含self-attention层。在self-attention层中所有的keys, values and queries都来自同一个地方在这种情况下是编码器中前一层的输出。类似地解码器中的自注意层允许解码器中的每个位置注意到解码器中的所有位置直至并包括该位置。我们需要防止解码器中的向左信息流以保持自回归特性。我们通过屏蔽(设置为负无穷)softmax输入中对应于非法连接的所有值来实现缩放点积注意如图2所示。 3.3 Position-wise前馈网络除了注意子层之外编码器和解码器中的每一层都包含一个完全连接的前馈网络该网络分别相同地应用于每个位置。这包括两个线性转换中间有一个ReLU激活。虽然线性变换在不同位置上是相同的但它们在每一层之间使用不同的参数。另一种描述它的方式是两个核大小为1的卷积。输入和输出的维数d_model 512内层的维数 d_ff 2048。 3.4 Embeddings and Softmax 与其他序列转导模型类似我们使用学习嵌入将输入 tokens 和输出 tokens 转换为维度d_model的向量。我们还使用通常学习的线性变换和softmax函数将解码器输出转换为预测的下一个tokens概率。在我们的模型中我们在两个嵌入层和pre-softmax线性变换之间共享相同的权矩阵。在嵌入层中我们将这些权重乘以 3.5 Positional Encoding 由于我们的模型不包含递归和卷积为了使模型利用序列的顺序我们必须注入一些关于序列中标记的相对或绝对位置的信息。为此我们在输入嵌入中编码器和解码器堆栈的底部添加了“位置编码”。位置编码与嵌入具有相同的维数模型因此可以对两者进行求和。位置编码有多种选择有learned and fixed。在这项工作中我们使用了不同频率的正弦和余弦函数: 其中pos是位置I是尺寸。也就是说位置编码的每一个维度对应于一个正弦波。波长形成从2π到10000·2π的几何级数。我们选择这个函数是因为我们假设它可以让模型很容易地学习相对位置因为对于任何固定的偏移量 k, PE_posk可以表示为的线性函数PE_pos。我们还尝试使用学习的位置嵌入并发现这两个版本产生了几乎相同的结果。我们选择正弦版本是因为它可以允许模型外推到比训练期间遇到的序列长度更长的序列。 4. Why Self-Attention 在本节中我们将自注意层的各个方面与通常用于映射一个可变长度符号表示序列的循环层和卷积层进行比较(x1, … , xn)到另一个等长的序列(z1,…, zn)带xi,zi ∈ R^d; 例如在典型的序列转导编码器或解码器中的隐藏层。为了激励我们使用self-attention我们考虑了三个必要条件。一个是每层的总计算复杂度。另一个是可以并行化的计算量通过所需的最小顺序操作数来衡量。第三个是网络中远程依赖关系之间的路径长度。学习远程依赖关系是许多序列转导任务中的关键挑战。影响学习这种依赖关系能力的一个关键因素是网络中向前和向后信号必须经过的路径长度。输入和输出序列中任意位置组合之间的路径越短学习远程依赖关系就越容易。因此我们还比较了由不同层类型组成的网络中任意两个输入和输出位置之间的最大路径长度。如表1所示自关注层用恒定数量的顺序执行操作连接所有位置而循环层需要O(n)个顺序操作。就计算复杂性而言当序列长度n小于表示维数d时自注意层比循环层更快这是机器翻译中最先进的模型(如word-piece)使用的句子表示最常见的情况和字节对表示。为了提高涉及很长序列的任务的计算性能自注意力可以限制为仅考虑输入序列中以相应输出位置为中心的大小为 r 的邻域。这将使最大路径长度增加到O(nr)。我们计划在未来的工作中进一步研究这种方法。一个核宽度为k n的卷积层不能连接所有的输入和输出位置对。在相邻核的情况下这样做需要O(nk)个卷积层的堆栈在扩展卷积的情况下需要O(logk(n))个卷积层的堆栈从而增加网络中任意两个位置之间最长路径的长度。卷积层的开销通常比循环层高k倍。然而可分离卷积[6]大大降低了复杂性为O(k·n·d n·d^2)。然而即使k n可分离卷积的复杂性也等于自注意层和点前馈层的组合这是我们在模型中采用的方法。作为附带好处self-attention可以产生更多可解释的模型。不仅个体注意力头清楚地学会执行不同的任务许多注意力头似乎表现出与句子的句法和语义结构相关的行为。

查看全文

http://www.hkea.cn/news/14516143/