当前位置：首页 > news >正文

部门网站建设情况总结学做美食视频网站

news 2026/4/25 1:32:43

部门网站建设情况总结,学做美食视频网站,网站定向搜索,宜昌十堰网站建设哪家好近年来#xff0c;随着Transformer、MOE架构的提出#xff0c;使得深度学习模型轻松突破上万亿规模参数#xff0c;传统的单机单卡模式已经无法满足超大模型进行训练的要求。因此#xff0c;我们需要基于单机多卡、甚至是多机多卡进行分布式大模型的训练。而利用AI集群随着Transformer、MOE架构的提出使得深度学习模型轻松突破上万亿规模参数传统的单机单卡模式已经无法满足超大模型进行训练的要求。因此我们需要基于单机多卡、甚至是多机多卡进行分布式大模型的训练。而利用AI集群使深度学习算法更好地从大量数据中高效地训练出性能优良的大模型是分布式机器学习的首要目标。为了实现该目标一般需要根据硬件资源与数据/模型规模的匹配情况考虑对计算任务、训练数据和模型进行划分从而进行分布式存储和分布式训练。因此分布式训练相关技术值得我们进行深入分析其背后的机理。前面讲述了一系列大模型训练的分布式并行方案本文简要对其进行相应的总结。数据并行数据并行由于其原理相对比较简单是目前使用最广泛的分布式并行技术。数据并行不仅仅指对训练的数据并行操作还可以对网络模型梯度、权重参数、优化器状态等数据进行并行。我们首先以PyTorch 数据并行的发展DataParallel、DistributedDataParallel、FullyShardedDataParallel为主线进行讲述了数据并行的技术原理。同时也简述了 DeepSpeed 中的增强版数据并行ZeRO。流水线并行所谓流水线并行就是由于模型太大无法将整个模型放置到单张GPU卡中因此将模型的不同层放置到不同的计算设备降低单个计算设备的显存消耗从而实现超大规模模型训练也被称为层间模型并行。我们首先讲述了朴素流水线并行但是朴素流水线并行存在的Bubble太大导致GPU的利用率很低。为了减少Bubble率后面又讲述了微批次流水线并行方案GPipe虽然GPipe可以显著提高GPU的利用率但是GPipe采用的是F-then-B 模式先进行前向计算再进行反向计算由于缓存了多个 micro-batch 的中间变量和梯度因此显存的实际利用率并不高。后来我们又讲述了采用1F1B模式前向计算和反向计算交叉进行可以及时释放不必要的中间变量的PipeDream及其变体PipeDream-2BW、PipeDream-Flush等来进一步节省显存训练更大的模型。同时还提到了常见的AI训练框架中采用的流水线并行方案。张量并行将计算图中的层内的参数张量切分到不同设备即层内并行每个设备只拥有模型的一部分以减少内存负荷我们称之为张量模型并行。按照行或者列的切分方式可将张量并行切分为对应的行并行或者列并行。我们首先介绍了由Megatron-LM提出的仅对权重进行划分的1D张量并行。为了应对超大规模的AI模型后来又介绍了由 Colossal-AI 提出的多维2/2.5/3 维张量并行。2D张量并行提出了针对激活进行切分。该并行方式降低了内存成本但是却引入更多的通信成本。而2.5D张量通过增加更多的设备来减少通信的开销。而为了进一步减少内存冗余和通信开销后续有提出了3D张量并行。除此之外我们还谈到了PyTorch2.0中开始对张量并行进行支持。序列并行序列并行目前并没有一个统一的定义。我们主要介绍了两篇关于序列并行的工作。第一篇是 Colossal-AI 发表的论文Sequence Parallelism: Long Sequence Training from System Perspective第二篇是 Megatron-LM 发表的论文Reducing Activation Recomputation in Large Transformer Models 虽然两者都叫序列并行Sequence Parallelism但是实际上解决的问题、方法都不一样。前者主要是解决模型的输入长度(sequence length)限制而后者是主要是减少模型显存的。同时还谈到了在PyTorch2.0的版本中提供了对序列并行的支持不过目前还没有realease。多维混合并行前面讲述了数据并行、张量并行、流水线并行等多种并行技术但在进行上百亿/千亿级以上参数规模的超大模型预训练时我们通常会组合多种并行技术一起使用。我们对目前常见的分布式并行技术组合策略进行了探讨同时还讲述了目前业界知名大模型中所采用的多维混合并行方案。自动并行大模型的分布式训练是一个非常复杂的问题目前的绝大多数的分布式训练系统都依赖用户人工反复尝试以及系统专家经验来进行部署造成严重的资源利用效率低下的问题。因此我们讲述了自动并行技术。主要针对目前一些经典的半自动Mesh-tensorflow、GSPMD或全自动FlexFlow、Alpa并行方案进行了相应的探讨。但目前自动并行方案在工业界落地的应用比较少。 MOE 并行现在的模型越来越大训练样本越来越多每个样本都需要经过模型的全部计算这就导致了训练成本的平方级增长。而当我们希望在牺牲极少的计算效率的情况下把模型规模提升上百倍、千倍通常就需要使用 MOE并行。我们对带MOE结构的分布式并行策略进行了讲解同时也讲述了业界的一些超大模型Switch-Transformer、GLaM的MOE并行方案。分布式训练并行策略选择上面讲述了各种分布式并行策略以下是进行分布式训练时针对不同的服务器资源类型单机多卡、多机多卡如何选择并行策略非常粗略的概述。单机单卡场景当你的模型可以在单张 GPU 卡进行训练时正常使用。当你的模型不能在单张 GPU 卡进行训练时 ZeRO Offload CPU 和 NVMe可选的。启用以内存为中心的平铺。如果最大层无法放置在单张GPU则使用 ZeRO - 启用以内存为中心的平铺 (MCT)。它允许您通过自动分割层并按顺序执行来运行任意大的层。 MCT 减少了 GPU 上实时参数的数量但不影响激活内存。单机多卡场景当你的模型可以在单张 GPU 卡进行训练时可以选择 DDP 或 ZeRO DDP分布式 DP。ZeRO可能会更快也可能不会更快具体取决于所使用的情况和配置。当你的模型不能在单张 GPU 卡进行训练时可以选择 PP、ZeRO、TP PPZeROTP 如果使用 NVLINK 或 NVSwitch 进行节点内通信这三者应该基本处于同等水平。如果没有这些 PP 将比 TP 或 ZeRO 更快。 TP 的大小也可能产生影响最好在您特定设置上进行试验以找到最优的方式。注意 TP 几乎总是在单个节点内进行使用。即TP 大小每个节点的 GPU 数。多机多卡场景当您服务器节点间网络通信速度较快时可以选择 ZeRO、PPTPDP ZeRO - 因为它几乎不需要对模型进行任何修改。PPTPDP - 通信较少但需要对模型进行大量更改。当您服务器节点间网络通信速度较慢并且 GPU 内存仍然不足时可以选择 DPPPTPZeRO-1。这里采用 PP 与 ZeRO-1 进行混合并行那么 PP 能与 DeepSpeed ZeRO 2/3一起训练吗答PP ZeRO 2/3 不推荐一起训练。 PP 需要累积梯度accumulate gradients但 ZeRO2 需要对梯度进行分块chunk。即使能够实现也没有真正的性能提升。将两者结合使用来提高效率并不容易PP ZeRO 2 实际上比 ZeRO2无 PP更慢且内存效率低。如果用户内存不足用户可以使用 ZeRO3 代替 ZeRO2 PP。而正因为如此在 DeepSpeed 中 PP ZeRO 2/3 之间不兼容。但可以将 PP 与 ZeRO 1 进行组合使用。这里多说一点即使该方法效率不高但是 ColossalAI 为了支持更多的并行训练方法。ColossalAI 还是提供了 ZeRO 3 PP TP 一起组合的方案。参考 github.com/microsoft/D…github.com/microsoft/D…github.com/hpcaitech/C…github.com/hpcaitech/C… 大模型混合精度训练 FP16 与 BF16 的对比目前进行大模型训练的时候为了节约显存混合精度训练基本上已经成为了标配。而FP16混合精度已经成为主流大规模模型训练框架的默认选项用于训练十亿到百亿规模的模型。但是用 FP16 训练巨型 LLM 模型却是一个禁忌它将面临更多的稳定性挑战。 FP16 会经常溢出导致数值不稳定、模型不收敛的情况为了避免溢出这意味着你的权重必须保持很小。一种称为损失缩放 (loss scaling) 的技术有助于缓解这个问题但是当模型变得非常大时FP16 较小的数值范围仍然是一个问题。因此你需要采用一些训练策略来稳定巨型模型的训练。作为补救措施NVIDIA Ampere GPU 提供了BF16浮点格式来缓解FP16的问题。但目前但目前BF16在一些平台上不被支持因此它的使用的可能广泛性会被限制。当使用 BF16 时BF16 为指数保留了 8 位 (与 FP32 相同)为小数保留了 7 位。这意味着使用 BF16 我们可以保留与 FP32 相同的动态范围。但代价就是它的精度非常差相对于 FP16损失了 3 位精度。但是在训练时采用的随机梯度下降法及其变体该方法有点像蹒跚而行如果你这步没有找到完美的方向其实没关系你会在接下来的步骤中纠正自己。无论使用 BF16 还是 FP16都有一个权重副本始终在 FP32 中 —— 这是由优化器更新的内容。 16 位格式仅用于计算优化器以全精度更新 FP32 权重然后将它们转换为 16 位格式以用于下一次迭代。因此不会发生精度损失。虽然之前有一些巨型大模型使用了 FP16 进行混合进行训练但是从OPT-175、Bloom-176B、GLM130B的训练报告来看BF16 是更佳的一个解决方案可以规避很多不必要的烦恼。结语本文对本系列文中谈到的一些分布式并行技术进行了简要的总结以加深对其的理解。本系列文章更新到此为止完结撒花~~ 码字不易如果觉得我的文章能够能够给您带来帮助期待您的点赞收藏加关注~~ 最后如果您也对AI大模型感兴趣想学习却苦于没有方向小编给自己收藏整理好的学习资料分享出来给大家获取方式有需要的小伙伴可以保存图片到wx扫描二v码关注免费领取【保证100%免费】 AI大模型学习路线汇总大模型学习路线图整体分为7个大的阶段全套教程文末领取哈第一阶段从大模型系统设计入手讲解大模型的主要方法第二阶段在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用第三阶段大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统第四阶段大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统第五阶段大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型第六阶段以SD多模态大模型为主搭建了文生图小程序案例第七阶段以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。如何学习AI大模型作为一名热心肠的互联网老兵我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】一、全套AGI大模型学习路线 AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能二、640套AI大模型报告合集这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示。三、AI大模型经典PDF籍随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。四、AI大模型商业化落地方案作为普通人入局大模型时代需要持续学习和实践不断提高自己的技能和认知水平同时也需要有责任感和伦理意识为人工智能的健康发展贡献力量。

查看全文

http://www.hkea.cn/news/14402094/