我想做网站,外国做网站的平台,7免费crm,免费网站推广服务核心思想是根据不同的上下文为不同的信息分配不同的注意力权重
效果#xff1a;
Attention#xff1a;它允许模型在解码时聚焦于输入的特定部分#xff0c;从而更好地捕获上下文信息。Self-attention#xff1a;它帮助模型捕获输入序列内部的关系#xff0c;无论这些关系…核心思想是根据不同的上下文为不同的信息分配不同的注意力权重
效果
Attention它允许模型在解码时聚焦于输入的特定部分从而更好地捕获上下文信息。Self-attention它帮助模型捕获输入序列内部的关系无论这些关系的距离有多远。
计算
Attention权重是基于当前的输出或解码器状态和所有的输入或编码器状态来计算的。Self-attention权重是基于输入序列的每一个元素与其他所有元素的关系来计算的。
数学 self-attention比attention约束条件多了两个 1. QKV同源 也就是说查询、键、和值都来自于同一个地方即输入序列和输出序列是相同的即模型在生成每一个输出时都对自己的所有输入包括自己进行加权求和。 2. QKV需要遵循attention的做法