网站推广方法主要有什么,现在还做响应式网站吗,句容网络公司,电脑下wordpress目录
掩码Mask Padding Mask Sequence Mask
为什么需要Sequence Mask?
Sequence Mask是如何工作的?
具体实现 为什么如果没有适当的掩码机制,解码器在生成某个位置的输出时,可能会“看到”并错误地利用该位置之后的信息
自回归性质
一、定义
二、性质
三、应用限制…目录
掩码Mask
Padding Mask
Sequence Mask
为什么需要Sequence Mask?
Sequence Mask是如何工作的?
具体实现 为什么如果没有适当的掩码机制,解码器在生成某个位置的输出时,可能会“看到”并错误地利用该位置之后的信息
自回归性质
一、定义
二、性质
三、应用限制 掩码Mask
Mask表示掩码,它对某些值进行掩盖,使其在参数更新时不产生效果。Transformer模型里面涉及两种mask,分别是Padding Mask和Sequence Mask。 Padding Mask在所有的scaled dot-product attention里面都需要用到 而Sequence Mask只有在解码器Decoder的Self-Attention里面用到。 Padding Mask
什么是Padding mask呢?因为每个批次输入序列的长度是不一样的,所以我们要对输入序列进行对齐。
具体来说:就是在较短的序列后面填充 0(但是如果输入的序列太长,则是截断,把多余的直接舍弃)。因为这些填充的位置,其实是没有什么意义的,所以我们的Attention机制不应该把注意力放在这些位置上,所以我们需要进行一些处理。
具体的做法:把这些位置的值加上一个非常大的负数(负无穷),这样的话,经过Softmax