当前位置：首页 > news >正文

做外贸出口的网站wordpress修复

news 2026/4/18 14:34:06

做外贸出口的网站,wordpress修复,室内设计网站知乎,潍坊点睛做网站怎么样前言#xff1a;DeepSeek模型最近引起了NLP领域的极大关注#xff0c;也让大家进一步对MOE#xff08;混合专家网络#xff09;架构提起了信心#xff0c;借此机会整理下MOE的简单知识和对应的大模型。本文的思路是MOE的起源介绍、原理解释、再到现有MOE大模型的整理。一…前言DeepSeek模型最近引起了NLP领域的极大关注也让大家进一步对MOE混合专家网络架构提起了信心借此机会整理下MOE的简单知识和对应的大模型。本文的思路是MOE的起源介绍、原理解释、再到现有MOE大模型的整理。一、MOE的起源和架构 MoE的概念最早由MIT等人在论文中指出混合专家网络可以看作是多层监督网络的模块化版本。比如元音识别任务可以分解为多个子任务每个子任务可以由一个非常简单的专家网络解决。图1-1最早的MOE模型经典之作其思想沿用至今-框架图从让专家之间学会合作-过渡到让专家之间学会竞争在合作时各个专家之间是强耦合的导致解决方案中使用多个专家当转换为竞争后将可以得到少数专家活跃的解决方案。这可以通过修改误差函数实现见图1-2。图1-2最早的MOE模型-损失函数随着稀疏门控MoE的出现Sparsely-Gated Mixture-of-Experts特别是在基于Transformer的LLM中成功地集成Gshard为这一30年历史的技术注入了新的活力。小结——MoE框架基于一个简单而强大的理念模型的不同部分称为专家专注于不同的任务。在这种范式下只有与给定输入相关的专家会被激活从而使得模型在具备海量专业知识的同时保持计算成本的可控性。二、MOE的分类根据激活专家情况可以把MOE模型分为Dense MoE和Sparse MoE接下来分别展开介绍。图2-1MOE模型的分类根据激活专家情况 2.1 Dense MoE Dense MoE在每次迭代中激活所有专家网络优缺点如下优点通常能够提供更高的预测准确性缺点会显著增加计算开销 Dense MoE层的输出可以表示为图2-2Dense MoE层的输出计算 2.2 Sparse MoE 为了解决Dense MoE的显著增加计算开销这一问题谷歌等人提出了Sparse MoE层即在每次前向传播过程中仅激活选定的一部分专家GShard便是其中的经典之作。这一策略通过计算加权和的前 k个专家的输出而不是聚合所有专家的输出从而实现了稀疏性。稀疏MoE层的结构如图2-1。稀疏门控机制的公式可以修改为图2-3Sparse MoE层的输出计算尽管稀疏门控显著扩展了模型的参数空间而不增加计算成本但它可能导致负载均衡问题即专家之间工作负载分布不均某些专家频繁使用而其他专家很少或从未使用。为了解决这一问题每个MoE层都引入了一个辅助负载均衡损失Auxiliary load balancing loss以促进每个batch中各专家之间token的均匀分布图2-4Sparse MoE引入的辅助负载均衡损失的公式通过引入辅助loss模型保持了所有专家之间的平衡以促使所有时间内专家的工作负载满足均匀分布。三、MOE各系列大模型技术点汇总基于MOE思想构建大模型自2018的提出-到2022年底chatGPT的出现-再到如今DeepSeek大火已经经历了七年之久模型更新脉络如下图3-1所示本文会将代表性MOE热度高/效果好大模型总结在本章节。图3-1基于MOE的LLM汇总 3.1 Mistral-MOE Mixtral 8x7B一种稀疏混合专家SMoE语言模型。它具有与Mistral 7B其结构可参考笔者另一篇文章相似的架构不同之处在于每一层由8个FFN模块即专家组成。对于每个token在每一层路由网络会选择两个专家topk2来处理当前状态并整合它们的输出。尽管每个token只看到2个专家但选择的专家在每个时间步可能不同。因此每个token可以访问47B参数但在推理过程中只使用13B活跃参数。Mixtral使用32k个token的上下文长度进行训练并在所有评测基准上优于或等于Llama2-70B和GPT-3.5。图3-2Mistral-MOE的架构参数参考 https://arxiv.org/pdf/2401.04088、假如给我一只AILLM开源大模型汇总-截止0218 3.2 LLaMA-MOE 基于LLaMA2-7B 模型其结构可参考笔者另一篇文章作者通过专家构建和持续预训练这两步就获得了 MoE 模型。图3-3LLaMA-MOE模型的两步操作——专家构建和持续预训练最终效果LLaMA-MoE 模型能够保持语言能力并将输入的 token 路由到特定的专家且部分参数被激活。实验表明通过训练 200B tokenLLaMA-MoE-3.5B 模型在性能上显著优于包含类似激活参数的Dense模型。 1专家构建将原始FFN层的参数分割成多个专家图3-4LLaMA-MOE的专家构建流程梳理 2持续预训练进一步训练转换后的 MoE 模型和额外的门网络在经历专家构建后原始LLaMA模型结构会被重新组织为MoE架构为了恢复其语言建模能力作者采用持续预训练策略进一步训练LLaMA-MoE模型该策略使用的训练目标与 LLaMA2 相同。为了提高训练效率作者探索了不同的数据采样策略和数据过滤策略。如果要采用持续预训练策略可能遇到问题见表3-1 表3-1持续预训练可能遇到的问题文章具体采用的方法1采用数据过滤得到去噪且流畅性高的数据2对比四种数据采样策略实验对比哪种好选择哪种即可。具体总结如下表3-2 表3-24种采样策略和2种数据过滤策略参考 https://arxiv.org/pdf/2406.16554、 Swish激活函数、 LLaMA2论文) 3.3 Deepseek-MOE 1DeepSeek-MoEV1版模型解决当前MOE模型存在的两方面问题专家数量小但token信息丰富将多样的知识分配给有限的专家有概率导致专家试着在有限的参数中学习大量不同类型的知识然而这些知识又难以同时利用最终会降低专家的专业性。多个专家之间存在知识冗余在传统路由策略中分配token给不同专家时可能需要一些共享知识。因此多个专家可能在各自参数中收敛于共享知识这就会导致专家参数冗余。 DeepSeek-MoE给出的解决方案见下图图3-5DeepSeek-MoE的细粒度专家和共享专家在此基础上DeepSeek-MOE也具有考虑了负载平衡即自动学习的路由策略可能会遇到负载不平衡的问题这会导致两个显著的缺陷[A] 存在路由崩溃的风险即模型始终选择少数几个专家其他专家缺乏充分训练[B] 如果专家分布在多个设备上负载不平衡会加剧计算瓶颈。解决2个问题分别提出了专家级负载loss和设备级负载loss问题-解决-公式的解释如下图图3-6DeepSeek-MoE的专家级负载和设备级负载公式推导见https://zhuanlan.zhihu.com/p/18565423596 2DeepSeek-V2模型在DeepSeek-MoE的基础上新增了一个路由机制和两个负载均衡方法即设备受限的专家路由机制、通信负载均衡loss和设备级Token丢弃策略它们的问题-解决-公式的解释如下两图图3-7aDeepSeek-V2的设备受限的专家路由机制图3-7bDeepSeek-V2的通信负载均衡和设备级Token丢弃策略 3DeepSeek-V3模型相比DeepSeek-V2DeepSeek-V3在MOE架构上的改进有三点使用 sigmoid 函数计算亲和度并对所有选定的亲和度进行归一化以产生门值图3-8a。提出了无辅助Loss的负载均衡技术和sequence粒度的负载均衡Loss图3-8b。接入了节点限制的路由和无token丢弃策略图3-8c。图3-8aDeepSeek-V3的亲和度计算公式图3-8bDeepSeek-V3的无辅助Loss的负载均衡技术和sequence粒度的负载均衡Loss 图3-8cDeepSeek-V3的节点限制的路由和无token丢弃策略代码学习DeepSeek-MoE源码、DeepSeek-V3源码参考 DeepSeek-MOE论文、 DeepSeek-V2论文、 DeepSeek-V3论文 3.4 Qwen-MOE 【持续更新】 https://qwenlm.github.io/blog/qwen-moe/ 3.5 Nvidia-MOE 【持续更新】 3.6 Grok-MOE 【持续更新】 3.7 Skywork-MOE 【持续更新】 https://arxiv.org/pdf/2406.06563 四、参考文献 MOE综述https://arxiv.org/pdf/2407.06204姜富春deepseek技术解读(3)-MoE的演进之路Gshardhttps://arxiv.org/pdf/2006.16668https://arxiv.org/pdf/1701.06538Mistral-moehttps://arxiv.org/pdf/2401.04088

查看全文

http://www.hkea.cn/news/14315616/