当前位置: 首页 > news >正文

北京做网站比较有名的公司有哪些网站keywords多少字

北京做网站比较有名的公司有哪些,网站keywords多少字,微分销免费平台,湖州网络推广大语言模型系列#xff1a;Transformer介绍 引言 在自然语言处理#xff08;NLP#xff09;领域#xff0c;Transformer模型已经成为了许多任务的标准方法。自从Vaswani等人在2017年提出Transformer以来#xff0c;它已经彻底改变了NLP模型的设计。本文将介绍Transforme…大语言模型系列Transformer介绍 引言 在自然语言处理NLP领域Transformer模型已经成为了许多任务的标准方法。自从Vaswani等人在2017年提出Transformer以来它已经彻底改变了NLP模型的设计。本文将介绍Transformer模型的基本结构和关键技术细节并通过具体的公式来阐述其工作原理。 Transformer模型概述 Transformer模型主要由编码器Encoder和解码器Decoder两个部分组成每个部分又由多个相同的层Layer堆叠而成。每一层都包含两个子层多头自注意力机制Multi-Head Self-Attention Mechanism和前馈神经网络Feed-Forward Neural Network。 编码器 编码器由N个相同的编码器层Encoder Layer堆叠而成。每个编码器层包含以下两个子层 多头自注意力机制Multi-Head Self-Attention Mechanism前馈神经网络Feed-Forward Neural Network 解码器 解码器也由N个相同的解码器层Decoder Layer堆叠而成。与编码器层类似每个解码器层包含以下三个子层 多头自注意力机制Masked Multi-Head Self-Attention Mechanism多头注意力机制Multi-Head Attention Mechanism前馈神经网络Feed-Forward Neural Network 注意力机制Attention Mechanism 注意力机制是Transformer的核心。它通过计算输入序列中每个位置的加权平均值来捕捉序列中不同位置之间的依赖关系。注意力机制的计算过程包括三个步骤计算查询Query、键Key和值Value的线性变换计算注意力权重并对值进行加权求和。 公式 线性变换 Q X W Q , K X W K , V X W V Q XW^Q, \quad K XW^K, \quad V XW^V QXWQ,KXWK,VXWV 其中( X )是输入序列的表示( W^Q )、( W^K )和( W^V )是可学习的参数矩阵。 注意力权重计算 Attention ( Q , K , V ) softmax ( Q K T d k ) V \text{Attention}(Q, K, V) \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V Attention(Q,K,V)softmax(dk​ ​QKT​)V 其中 d k d_k dk​是键的维度。 多头注意力机制Multi-Head Attention Mechanism 多头注意力机制通过引入多个注意力头Attention Heads可以在不同的子空间中并行计算注意力。多头注意力机制的公式如下 分头计算 head i Attention ( Q W i Q , K W i K , V W i V ) \text{head}_i \text{Attention}(QW_i^Q, KW_i^K, VW_i^V) headi​Attention(QWiQ​,KWiK​,VWiV​) 头的拼接 MultiHead ( Q , K , V ) Concat ( head 1 , head 2 , … , head h ) W O \text{MultiHead}(Q, K, V) \text{Concat}(\text{head}_1, \text{head}_2, \ldots, \text{head}_h)W^O MultiHead(Q,K,V)Concat(head1​,head2​,…,headh​)WO 其中QKV是可学习的参数矩阵。 位置编码Positional Encoding 由于Transformer模型没有使用循环神经网络RNN或卷积神经网络CNN它不能直接捕捉序列中的位置信息。因此Transformer通过添加位置编码Positional Encoding来引入位置信息。位置编码的公式如下 P E ( p o s , 2 i ) sin ⁡ ( p o s 1000 0 2 i / d m o d e l ) PE_{(pos, 2i)} \sin\left(\frac{pos}{10000^{2i/d_{model}}}\right) PE(pos,2i)​sin(100002i/dmodel​pos​) P E ( p o s , 2 i 1 ) cos ⁡ ( p o s 1000 0 2 i / d m o d e l ) PE_{(pos, 2i1)} \cos\left(\frac{pos}{10000^{2i/d_{model}}}\right) PE(pos,2i1)​cos(100002i/dmodel​pos​) 其中 p o s pos pos是位置 i i i是维度索引 d m o d e l d_{model} dmodel​是模型的维度。 前馈神经网络Feed-Forward Neural Network 在每个编码器层和解码器层中前馈神经网络FFN通过两个线性变换和一个激活函数来处理每个位置的表示。前馈神经网络的公式如下 FFN ( x ) max ⁡ ( 0 , x W 1 b 1 ) W 2 b 2 \text{FFN}(x) \max(0, xW_1 b_1)W_2 b_2 FFN(x)max(0,xW1​b1​)W2​b2​ 其中 W 1 W_1 W1​、 W 2 W_2 W2​、 b 1 b_1 b1​和 b 2 b_2 b2​是可学习的参数矩阵和偏置向量。 总结 Transformer模型通过自注意力机制和多头注意力机制有效地捕捉序列中不同位置之间的依赖关系并通过位置编码引入位置信息。它的并行计算能力使其在处理大规模数据时表现出色已经成为NLP任务中的主流模型。 希望本文对您理解Transformer模型有所帮助。如果您有任何问题或建议欢迎在评论区留言。 参考文献 Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … Polosukhin, I. (2017). Attention is all you need. In Advances in neural information processing systems (pp. 5998-6008).
http://www.hkea.cn/news/14535336/

相关文章:

  • 建设银行网站用户名忘了怎么办网站恶意刷新
  • 请多记几个本站域名防止失联企业注册地址查询
  • 网站开发数据库技术抖音代运营服务协议
  • 用境外服务器做网站搜索引擎优化的主要手段
  • 建设大型购物网站阿里云多网站建设
  • 网站优化心得怎么推广我做的网站
  • 浅谈博物馆网站的建设意义信誉好的丹徒网站建设
  • 郑州鹏之信网站建设wordpress支持PHP吗
  • 后台模板链接前台网站百度下载app
  • 网站建设的基本原则php访问网站
  • 陕西网站建设企业学电商设计大概多少钱
  • wordpress的站点是什么建个公司网站怎么弄
  • 哪个网站可以直接做ppt做本地化的返利网站怎么样
  • 网站没有备案信息该怎么做阿里巴巴集团控股有限公司
  • wordpress去除顶部网站建设公司十年乐云seo
  • 网站页面seo注册域名多长时间
  • python做公司网站遵义市网站建设
  • 北京建网站公司价格怎样做运营一个网站
  • 电商网站建设系统美篇在哪个网站做的
  • 大学生做网站类型网站美工做专题尺寸多少?
  • 怎么创建个网站商业空间设计ppt分析
  • 佛山网站设计培训订票网站模板
  • 博罗网站开发广告软文营销平台
  • 做字体网站做网站需要多少固定带宽
  • js网站特效阜阳手机网站制作
  • 在线支付的网站怎么做上海闵行区怎么样
  • 网站建设公司发展建议wordpress前端用户插件
  • 成都做网站优化价格seo关键词优化
  • 做网站数据库怎么整怎样建设淘宝客导购网站
  • 自己建设网站服务器网站建设的讲话要求