当前位置: 首页 > news >正文

做外贸出口的网站wordpress修复

做外贸出口的网站,wordpress修复,室内设计网站知乎,潍坊点睛做网站怎么样前言#xff1a;DeepSeek模型最近引起了NLP领域的极大关注#xff0c;也让大家进一步对MOE#xff08;混合专家网络#xff09;架构提起了信心#xff0c;借此机会整理下MOE的简单知识和对应的大模型。本文的思路是MOE的起源介绍、原理解释、再到现有MOE大模型的整理。 一…前言DeepSeek模型最近引起了NLP领域的极大关注也让大家进一步对MOE混合专家网络架构提起了信心借此机会整理下MOE的简单知识和对应的大模型。本文的思路是MOE的起源介绍、原理解释、再到现有MOE大模型的整理。 一、MOE的起源和架构 MoE的概念最早由MIT等人在论文中指出混合专家网络可以看作是多层监督网络的模块化版本。比如元音识别任务可以分解为多个子任务每个子任务可以由一个非常简单的专家网络解决。 图1-1最早的MOE模型经典之作其思想沿用至今-框架图 从让专家之间学会合作-过渡到让专家之间学会竞争在合作时各个专家之间是强耦合的导致解决方案中使用多个专家当转换为竞争后将可以得到少数专家活跃的解决方案。这可以通过修改误差函数实现见图1-2。 图1-2最早的MOE模型-损失函数 随着稀疏门控MoE的出现Sparsely-Gated Mixture-of-Experts特别是在基于Transformer的LLM中成功地集成Gshard为这一30年历史的技术注入了新的活力。 小结——MoE框架基于一个简单而强大的理念模型的不同部分称为专家专注于不同的任务。在这种范式下只有与给定输入相关的专家会被激活从而使得模型在具备海量专业知识的同时保持计算成本的可控性。 二、MOE的分类 根据激活专家情况可以把MOE模型分为Dense MoE和Sparse MoE接下来分别展开介绍。 图2-1MOE模型的分类根据激活专家情况 2.1 Dense MoE Dense MoE在每次迭代中激活所有专家网络优缺点如下 优点通常能够提供更高的预测准确性缺点会显著增加计算开销 Dense MoE层的输出可以表示为 图2-2Dense MoE层的输出计算 2.2 Sparse MoE 为了解决Dense MoE的显著增加计算开销这一问题谷歌等人提出了Sparse MoE层即在每次前向传播过程中仅激活选定的一部分专家GShard便是其中的经典之作。这一策略通过计算加权和的前 k个专家的输出而不是聚合所有专家的输出从而实现了稀疏性。稀疏MoE层的结构如图2-1。稀疏门控机制的公式可以修改为 图2-3Sparse MoE层的输出计算 尽管稀疏门控显著扩展了模型的参数空间而不增加计算成本但它可能导致负载均衡问题即专家之间工作负载分布不均某些专家频繁使用而其他专家很少或从未使用。 为了解决这一问题每个MoE层都引入了一个辅助负载均衡损失Auxiliary load balancing loss以促进每个batch中各专家之间token的均匀分布 图2-4Sparse MoE引入的辅助负载均衡损失的公式 通过引入辅助loss模型保持了所有专家之间的平衡以促使所有时间内专家的工作负载满足均匀分布。 三、MOE各系列大模型技术点汇总 基于MOE思想构建大模型自2018的提出-到2022年底chatGPT的出现-再到如今DeepSeek大火已经经历了七年之久模型更新脉络如下图3-1所示本文会将代表性MOE热度高/效果好大模型总结在本章节。 图3-1基于MOE的LLM汇总 3.1 Mistral-MOE Mixtral 8x7B一种稀疏混合专家SMoE语言模型。它具有与Mistral 7B其结构可参考笔者另一篇文章相似的架构不同之处在于每一层由8个FFN模块即专家组成。对于每个token在每一层路由网络会选择两个专家topk2来处理当前状态并整合它们的输出。尽管每个token只看到2个专家但选择的专家在每个时间步可能不同。因此每个token可以访问47B参数但在推理过程中只使用13B活跃参数。Mixtral使用32k个token的上下文长度进行训练并在所有评测基准上优于或等于Llama2-70B和GPT-3.5。 图3-2Mistral-MOE的架构参数 参考 https://arxiv.org/pdf/2401.04088、 假如给我一只AILLM开源大模型汇总-截止0218 3.2 LLaMA-MOE 基于LLaMA2-7B 模型其结构可参考笔者另一篇文章作者通过专家构建和持续预训练这两步就获得了 MoE 模型。 图3-3LLaMA-MOE模型的两步操作——专家构建和持续预训练 最终效果LLaMA-MoE 模型能够保持语言能力并将输入的 token 路由到特定的专家且部分参数被激活。实验表明通过训练 200B tokenLLaMA-MoE-3.5B 模型在性能上显著优于包含类似激活参数的Dense模型。 1专家构建将原始FFN层的参数分割成多个专家 图3-4LLaMA-MOE的专家构建流程梳理 2持续预训练进一步训练转换后的 MoE 模型和额外的门网络 在经历专家构建后原始LLaMA模型结构会被重新组织为MoE架构为了恢复其语言建模能力作者采用持续预训练策略进一步训练LLaMA-MoE模型该策略使用的训练目标与 LLaMA2 相同。为了提高训练效率作者探索了不同的数据采样策略和数据过滤策略。 如果要采用持续预训练策略可能遇到问题见表3-1 表3-1持续预训练可能遇到的问题 文章具体采用的方法1采用数据过滤得到去噪且流畅性高的数据2对比四种数据采样策略实验对比哪种好选择哪种即可。具体总结如下表3-2 表3-24种采样策略和2种数据过滤策略 参考 https://arxiv.org/pdf/2406.16554、 Swish激活函数、 LLaMA2论文) 3.3 Deepseek-MOE 1DeepSeek-MoEV1版模型 解决当前MOE模型存在的两方面问题 专家数量小但token信息丰富将多样的知识分配给有限的专家有概率导致专家试着在有限的参数中学习大量不同类型的知识然而这些知识又难以同时利用最终会降低专家的专业性。多个专家之间存在知识冗余在传统路由策略中分配token给不同专家时可能需要一些共享知识。因此多个专家可能在各自参数中收敛于共享知识这就会导致专家参数冗余。 DeepSeek-MoE给出的解决方案见下图 图3-5DeepSeek-MoE的细粒度专家和共享专家 在此基础上DeepSeek-MOE也具有考虑了负载平衡即自动学习的路由策略可能会遇到负载不平衡的问题这会导致两个显著的缺陷[A] 存在路由崩溃的风险即模型始终选择少数几个专家其他专家缺乏充分训练[B] 如果专家分布在多个设备上负载不平衡会加剧计算瓶颈。 解决2个问题分别提出了专家级负载loss和设备级负载loss问题-解决-公式的解释如下图 图3-6DeepSeek-MoE的专家级负载和设备级负载公式推导见https://zhuanlan.zhihu.com/p/18565423596 2DeepSeek-V2模型 在DeepSeek-MoE的基础上新增了一个路由机制和两个负载均衡方法即设备受限的专家路由机制、通信负载均衡loss和设备级Token丢弃策略它们的问题-解决-公式的解释如下两图 图3-7aDeepSeek-V2的设备受限的专家路由机制 图3-7bDeepSeek-V2的通信负载均衡和设备级Token丢弃策略 3DeepSeek-V3模型 相比DeepSeek-V2DeepSeek-V3在MOE架构上的改进有三点 使用 sigmoid 函数计算亲和度并对所有选定的亲和度进行归一化以产生门值图3-8a。提出了无辅助Loss的负载均衡技术和sequence粒度的负载均衡Loss图3-8b。接入了节点限制的路由和无token丢弃策略图3-8c。 图3-8aDeepSeek-V3的亲和度计算公式 图3-8bDeepSeek-V3的无辅助Loss的负载均衡技术和sequence粒度的负载均衡Loss 图3-8cDeepSeek-V3的节点限制的路由和无token丢弃策略 代码学习DeepSeek-MoE源码、DeepSeek-V3源码 参考 DeepSeek-MOE论文、 DeepSeek-V2论文、 DeepSeek-V3论文 3.4 Qwen-MOE 【持续更新】 https://qwenlm.github.io/blog/qwen-moe/ 3.5 Nvidia-MOE 【持续更新】 3.6 Grok-MOE 【持续更新】 3.7 Skywork-MOE 【持续更新】 https://arxiv.org/pdf/2406.06563 四、参考文献 MOE综述https://arxiv.org/pdf/2407.06204姜富春deepseek技术解读(3)-MoE的演进之路Gshardhttps://arxiv.org/pdf/2006.16668https://arxiv.org/pdf/1701.06538Mistral-moehttps://arxiv.org/pdf/2401.04088
http://www.hkea.cn/news/14315616/

相关文章:

  • 做网站的图片大全室内装修设计自学软件
  • 大丰网站制作佛山市建设企业网站服务机构
  • 怎么让公司网站显示官网柳市哪里有做网站推广
  • 黄山网站建设北京网站建设 招聘信息
  • ASP网站开发步骤与过程志愿服务网站建设中标公告
  • 金华哪里有做网站的公司4000-262-场口一站式建站哪家公司好
  • 佛山免费建站怎样整合营销传播的明显特征是
  • 用python做网站怎么赚钱四川公共资源交易网查看招标公告
  • 度假区网站建设方案桂林十里画廊
  • 佛山建设外贸网站公司吗在线seo关键词排名优化
  • 专门做招商的网站是什么免费开发软件制作平台
  • 建站之星用做什么网站大连做网站的
  • 鞍山手机网站建设网站建设的服务器
  • 郑州网站建设九零后dw简述网站开发流程
  • h5 网站开发流程图国外做兼职网站有哪些
  • 求个网站开网站挣不挣钱
  • 怎样做自己网站网页设计图片作品
  • 网站建设意向书ps兼职做网站
  • 青海微信网站建设三合一模板网站
  • 网站建设论文模板园林景观设计公司的培训手册模板
  • 企业网站设计目的和意义支付宝开放平台
  • 网站建设公司上海做网站公司哪家好做骗子曝光网站是否违法
  • 哪种语言做网站最快windows优化大师在哪里
  • 建筑工程证书查询免费seo关键词优化方案
  • 阿里云网站备案幕布网站建设软件开发
  • 做网站服装appwordpress 360字体大小
  • 用html是做班级简介网站成都建设网站那个好
  • 做自媒体资源的网站网站目录遍历
  • 曲靖网站建设公司怎么创建个人视频号
  • 西安有哪些家做网站的公司免费有效的推广网站