当前位置: 首页 > news >正文

dw做网站有哪些用处检察 网站建设

dw做网站有哪些用处,检察 网站建设,自己做的网站谁来维护,萨龙 wordpress基础篇#xff1a;Transformer 引言模型基础架构原论文架构图EmbeddingPostional EncodingMulti-Head AttentionLayerNormEncoderDecoder其他 引言 此文作者本身对transformer有一些基础的了解,此处主要用于记录一些关于transformer模型的细节部分用于进一步理解其具体的实现机… 基础篇Transformer 引言模型基础架构原论文架构图EmbeddingPostional EncodingMulti-Head AttentionLayerNormEncoderDecoder其他 引言 此文作者本身对transformer有一些基础的了解,此处主要用于记录一些关于transformer模型的细节部分用于进一步理解其具体的实现机制输入输出细节以及一些理解.此文会不定期更新用于记录新学习到的知识. 模型基础架构 原论文架构图 首先给出的是原论文 Attention is all you need中的架构图我们会在这个篇章部分分列模型pipeline中的各个部件。在最后给出关于这个模型图中没有的细节补充。 Embedding 其使用的是nn.embedding来进行初始化根据词表里的数量和设置的隐层维度来初始化可训练。**TODO**这里会存在词表的初始化问题即分词方法在后续介绍 Postional Encoding 两种编码方式learned PE是绝对位置编码即直接随机初始化一个可训练的参数Sinusoidal PE为相对位置的三角编码首先根据位置pos和隐层维度位置i得到embedding值 f ( p o s , i ) s i n ( p o s 1000 0 i N ) i f i 为奇数   e l s e c o s f(pos,i)sin(\frac{pos}{10000^{\frac{i}{N}}}) \ \ \ \ if\ \ i为奇数\ \ else\ \ cos f(pos,i)sin(10000Ni​pos​)    if  i为奇数  else  cos Multi-Head Attention 单头attention 的 Q/K/V 的shape和多头attention 的每个头的Qi/Ki/Vi的大小是不一样的假如单头attention 的 Q/K/V的参数矩阵WQ/WK/WV的shape分别是[512, 512] (此处假设encoder的输入和输出是一样的shape)那么多头attention (假设8个头)的每个头的Qi/Ki/Vi的参数矩阵WQi/WKi/WVi大小是[512 512/8]. LayerNorm BatchNorm本质是对同一个批次中每一个数据样本的不同通道求均值方差通道之间不进行交互并通过滑动动量平均的方式将批次的均值方差记录下来用于推理。BN相对更适合在数据批次上具有统计意义的问题其会抹平特征之间的差异保留样本之间的大小关系。而在NLP任务当中每个句子内部的特征大小关系才是需要保留的不同句子之间关联不大因此抹平样本之间的大小关系更为合适。 Encoder Encoder一般包含两部分self-attention和feed-forward。每一层Encoder都有独立的一组权重参数。最后一层Encoder得到的WkWv用于计算Decoder的cross-attention。 Decoder Decoder一般包含三个部分self-attention, encoder-decoder-attention和feed-forward。在这里和这里有一些关于Decoder实际部署时的运行细节。 在训练的时候Decoder通过mask得到ground truth的shift-right的下三角矩阵,对于位置t其拥有前t-1个时刻的所有信息之后计算矩阵得到该位置的output该output和同位置的ground truth计算损失即teach forcing的方法。在推理时通过padding一个一个输入但只取最后一个时刻的output作为全局的预测结果因此可能存在非对应位置最优解即beam search。 其他 编码层解码层堆栈事实上encoder和decoder是可以进行stack的原论文图中只展示了一层其实际实现逻辑是下图。 transformer只能够处理定长输入和定长输出对于长度不定的数据通过padding -INF等方法来进行补全由于softmax的存在这些会约等于0。
http://www.hkea.cn/news/14486716/

相关文章:

  • 惠州网站搭建找谁wordpress注册跳过邮箱验证码
  • 可直接进入网站的代码网站导航优化的描述
  • html怎么学百度seo 站长工具
  • 番禺制作网站报价东莞做网站排名优化推广
  • 哪个网站可以做h5页面制作网页app
  • 自助建站代理海外网站的建设
  • 建个公司网站要多少钱网站制作销售术语
  • 商城网站合作协议Wordpress调用百度云
  • 深圳网站定制价格低网站建设哪家公司比较好
  • 太原网站制作哪里便宜联邦快递网站建设的目标
  • 做网站一般都选哪家商城网站开发方案
  • 编程 网站建设如何开公司做网站
  • 怎么用手机做抖音上最火的表白网站包括
  • 个人网站模板h5wordpress 数据库表可视化
  • 推荐做幻灯片搜图网站万网个人网站备案查询
  • 建设食品网站如何定位不会百度吗网页生成
  • 网站建设行规深圳制作网页设计
  • 4s店建设网站的目的医疗门户网站模板
  • 苏州网站建设熊掌号内江做网站哪里便宜
  • 青海小学网站建设如何查看网站图片尺寸
  • 微网站免费注册wordpress搜索优化
  • 做网站公司商丘seo北京公司
  • 网站说明页内容维护jsp是前端还是后端开发的
  • wordpress设计网站广州 网站开发
  • 阿里万网怎么做网站建设彩票网站制作
  • 套别人代码做网站品牌设计作品
  • 建网站软件最新网站备案单位查询系统
  • flash做的网站微信小程序怎么注册申请
  • 个人网站系统上海哪家公司做网站
  • 制作医院网站高端品牌网站建设服务