大型网站只做要多少钱,照片合成制作app,网站自己做服务器,数据中台建设超万卡训练集群互联关键技术 大模型迈向万亿参数的多模态升级#xff0c;万卡集群计算能力亟需飞跃。关键在于增强单芯片性能、提升超节点算力、融合DPU多计算能力#xff0c;并追求算力能效比极致。这一系列提升将强有力支撑更大规模模型训练和推理#xff0c;快速响应业务…
nbsp;
超万卡训练集群互联关键技术
nbsp; nbsp; 大模型迈向万亿参数的多模态升级万卡集群计算能力亟需飞跃。关键在于增强单芯片性能、提升超节点算力、融合DPU多计算能力并追求算力能效比极致。这一系列提升将强有力支撑更大规模模型训练和推理快速响应业务需求推动技术进步。 InfiniBand与RoCE对比分析AI数据中心网络选择指南
1、单芯片能力
超万卡集群中单芯片能力包括单个GPU的计算性能和GPU显存的访问性能。在单个GPU计算性能方面首先需要设计先进的GPU处理器在功耗允许条件下研发单GPU更多并行处理核心努力提高运行频率。
其次通过优化高速缓存设计减少GPU访问内存延迟进一步提升单GPU芯片运行效率。第三优化浮点数表示格式探索从FP16到FP8浮点数的表示格式通过在芯片中引入新的存储方式和精度在保持一定精度条件下大幅提升计算性能。
最后针对特定计算任务可在GPU芯片上集成定制化的硬件加速逻辑单元这种基于DSA(DomainSpecificArchitecture)的并行计算设计可提升某些特定业务领域的计算速度。
为高效布放万亿模型数据于数万张GPU显存需显存具备高带宽、大容量特性确保计算单元高效访存、系统低能耗运行。推荐采用2.5D/3D堆叠的HBM技术以缩短数据传输距离降低访存延迟显著提升GPU计算单元与显存的互联效率从而优化GPU显存访问性能。
超万卡集群技术为智算中心提供卓越的单卡算力为更大规模的模型训练和推理任务奠定坚实硬件基石展现无限潜力。
2、超节点计算能力
针对万亿模型训练与推理特别是在超长序列和MoE架构下应着重提升巨量参数与数据样本的计算效率满足All2All通信模式下的GPU卡间通信需求。建议超万卡集群改进策略聚焦在优化计算效率、增强GPU间通信能力等领域。
●加速推进超越单机8卡的超节点形态服务器
为应对万亿级参数量模型部署挑战产业界应研发突破8卡限制的超节点服务器。通过增强GPU南向互联能力提升张量并行与MoE并行效率大幅缩短训练时长实现大模型训练性能的整体优化助力产业迈向新高度。
●加快引入面向Scale up的Switch芯片
建议在节点内集成支持Scale up的Switch芯片以强化GPU南向互联效率和规模提升张量并行与MoE并行的数据传输能力。如图2集成Switch芯片能显著增强GPU间的P2P带宽优化网络传输效率满足大模型对GPU互联和带宽的高需求为大规模并行计算提供坚实的硬件基础。 ●优化GPU卡间互联协议
为提升通信效率建议对GPU卡间互联协议进行全面优化与重构特别是在All2All模式下。通过革新数据报文格式、引入CPO/NPO技术、强化SerDes传输速率、优化拥塞控制及重传机制并结合多异构芯片C2C封装大幅提升超万卡集群的GPU互联网络效率。此举将显著减少通信时延实现带宽能力的质的飞跃满足高频次、大带宽、低延迟的通信需求。
3、多计算能力融合
面对超万卡集群智算中心数据交换需求激增传统CPU处理网络数据效率低下且成本高昂。为提升效率智算中心计算架构正转向DPU。DPU具备层级化可编程、低时延网络和统一管控特性可卸载CPU、GPU中的数据处理任务大幅扩展节点间算力连接释放CPU、GPU算力降低协作成本从而发挥集群最大效能。
智算中心软硬一体化重构构建计算、存储、网络、安全、管控五大引擎标准化DPU片上驱动内核引领未来计算新纪元。
计算引擎卸载优化I/O设备加速数据与控制路径节点标准化支持virtio-net和virtio-blk后端接口实现设备驱动的通用化摆脱厂商专用驱动的束缚确保高效稳定的计算体验。
存储引擎在DPU上实现存储后端接口支持TCP/IP及RDMA网络功能无缝连接块、对象、文件存储集群。这一创新设计将全类型存储任务卸载至DPU大幅提升存储效率为数据处理提供强劲支撑。
网络引擎将虚拟交换机卸载至DPU通过标准流表和卸载接口实现网络流量高效卸载全面释放硬件性能。集成RDMA网络功能显著降低多机多卡间通信时延将多机间通信带宽提升至400G构建节点间数据交换的“极速通道”。
安全引擎运用信任根与IPsec等加密协议为系统和多租户网络提供强大防护同时依托DPU实现高效卸载方案确保数据安全无忧。
中国移动自2020年起基于五大引擎蓝图倾力打造自主知识产权的磐石DPU并于2021年正式发布。经过移动云现网的精心打磨我们持续升级磐石DPU至2024年全面升级为ASIC架构。此举旨在通过软硬融合重构算力基础设施重塑云计算技术新标准引领算力时代技术革新塑造新技术未来曲线。
融入磐石DPU芯片至智算中心升级至CPUGPUDPU三平台支撑将有效连接集群节点间的算力孤岛突破技术架构的集群规模极限实现超万卡集群的构建为算力发展带来革命性突破。
4、极致算力能效比
制程工艺固定下高性能芯片功耗上升影响散热。面对功率密度激增需同步优化制冷系统与GPU芯片确保高效散热与稳定运行。
制冷系统挑战重重8卡GPU服务器功耗远超通用型。面对GPU散热剧增为提升计算密度与空间效率超万卡集群宜采用高密度冷板式液冷机柜。一柜多机空间利用率飞跃提升远超传统风冷是高效节能的明智之选。
在GPU芯片方面为了提升GPU单芯片的能效比应采取多领域的优化策略实现高性能与低能耗之间的平衡。在芯片工艺领域建议采用更加先进的半导体制造工艺如7nm或更小的特征尺寸以此降低晶体管的功耗同时提升单芯片集成度。此外应加强超万卡集群内GPU架构的创新设计包括优化片上总线设计、改进流水线结构、优化电压和频率策略以及精确的时钟门控技术从而在不同工作状态下实现最优的能耗效率。
在软件层面超万卡集群应采用更加精细的监控和分析实时跟踪GPU的运行数据并不断优化算法和工作负载分配以实现更加均衡和高效的算力利用。通过上述设计和优化不仅能提高用户的计算体验降低成本也为智算中心可持续发展和绿色环保提出了可行方案。
5、高性能融合存储技术
超万卡集群应用多协议融合与自动分级存储技术优化存储空间利用与数据流动大幅提升智算数据处理效率支持集群大规模扩展赋能千亿至万亿级大模型训练实现智算巅峰性能。
6、多协议融合
超万卡集群融合存储底座承载Al全流程业务数据处理兼容Al全流程工具链所需的NFS(Network File System)、S3(Sample Storage Service)和并行客户端POSIX(Portable Operating System Interface)等协议支持各协议语义无损达到与原生协议一样的生态兼容性要求在不同阶段实现数据零拷贝和格式零转换确保前一阶段的输出可以作为后一阶段的输入实现Al各阶段协同业务的无缝对接达到“零等待”效果显著提升大模型训练效率。
7、集群高吞吐性能
为满足超万卡集群大模型对高吞吐存储需求我们采用全局文件系统技术支持超3000节点扩展提供百PB级全闪存储集群。通过优化闪存密度、网络、客户端和通信机制实现10TB/s吞吐带宽、亿级IOPS智能算力利用率提升20%以上。大模型恢复时间从分钟级缩短至秒级确保高价值智算数据强一致性和99.9999%可靠性全面赋能大模型训练。
8、大规模机间高可靠网络技术
超万卡集群网络涵盖参数面、数据面、业务面和管理面四大网络。其中参数面网络需支持高带宽无损保障节点间参数交换数据面网络亦要求高带宽优化节点对存储的访问。业务面与管理面则采用传统TCP部署。超万卡集群对参数面网络有四大严苛要求大规模、零丢包、高吞吐、高可靠。
目前业界成熟的参数面主要包括IB(InfiniBand)和RoCE两种技术。面向未来Al大模型演进对网络提出的大规模组网和高性能节点通信需求业界也在探索基于以太网新一代智算中心网络技术包括由中国移动主导的全调度以太网(GlobalScheduled Ethernet,GSE)方案[6]和Linux Foundation成立的超以太网联盟(UltraEthernet Consortium,UEC),两者通过革新以太网现有通信栈突破传统以太网性能瓶颈为后续人工智能和高性能计算提供高性能网络。中国移动也将加速推动GSE技术方案和产业成熟提升Al网络性能充分释放GPU算力助力Al产业发展。
9、大规模组网
针对Al服务器规模推荐采用Spine-Leaf两层或胖树(Fat-Tree)组网策略以优化参数面网络架构。
如图3所示Spine-Leaf两层组网模型中每组由8台Leaf交换机及相连的AI服务器构成。推荐多轨连接方式即各AI服务器的网口依次连接至对应的Leaf交换机确保高效通信。Spine交换机与Leaf交换机间实现Fullmesh全连接确保网络稳定。此外Leaf交换机上下行收敛比设定为1:1保障数据流通畅无阻。此设计确保了网络扩展性与性能的双重优化。 胖树(Fat-Tree)组网由Leaf交换机、Spine交换机和Core交换机组成如图4所示。每8台Leaf交换机和下挂的Al服务器做为一个group,8台Leaf交换机又和上面N台Spine交换机组成一个pod,胖树组网以pod为单位进行扩展。在胖树组网中Spine交换机和Leaf交换机之间采用Fullmesh全连接所有Spinel都Full-Mesh连接至第一组Core,所有Spine2都Full-Mesh连接至第二组Core,依次类推。Spine交换机和Leaf交换机上下行收敛比都为1:1。 10、高容错高效能平台技术
智算平台作为智算中心的核心承载模型训练、推理与部署统一纳管、调度、分配算力基础设施实现全生命周期管理。该平台云化管控laaS资源如计算、存储、网络并通过云原生容器技术精准满足智算业务需求包括资源纳管分配、Al任务调度、拓扑感知调度及训练全链路监控展现其卓越的综合性能。
11、断点续训高容错能力
大模型训练面临的主要挑战在于确保训练的连续性。硬件、软件、网络等故障频发对耗时耗资的训练进程构成严重威胁。为克服这些困难业界普遍采用自动故障检测与训练重启技术并在训练过程中周期性保存checkpoint。一旦故障发生训练即可从最近的checkpoint无缝重启确保训练的高效与稳定。 平台运维监控能力可精准检测超万卡集群的软硬件故障并预警。但故障导致模型训练中断时需人工介入。我们将迅速排查故障隔离并重启容器pod资源重新初始化并行训练的集合通信加载最新checkpoint信息并重新编译算子库确保训练任务无缝恢复。
在断点续训过程中checkpoint是模型中断训练后恢复的关键点因此checkpoint密集程度、保存和恢复的性能尤为重要checkpoint本身的耗时与模型的大小成正比当模型参数达到百亿甚至千亿时checkpoint的时间开销通常在几分钟到十几分钟之间。
此时训练任务需要暂停使得用户难以频繁进行checkpoint操作因此为保证训练效率会适当拉长checkpoint保存周期。然而一旦发生中断之前损失的迭代次数在恢复时需要重新计算需要花费更长的时间。
为解决该问题需要尽量降低checkpoint流程的开销既能大幅降低训练暂停时间也能支持高频的checkpoint来减少容错时浪费的迭代步数。业界通常采用checkpoint多级存储的方式构建基于更高10性能的内存介质构建存储系统相比于磁盘或者网络文件存储系统checkpoint在内存空间的保存可以大幅缩短训练暂停等待时间。
同时结合业务需求定期地将checkpoint异步写入到持久化的存储系统中异步流程不干扰正常的训练。当发生故障导致训练任务重启时由于内存系统中的checkpoint数据并未丢失新启动的训练进程可以直接读取内存系统中的checkpoint数据来加载模型和优化器状态从而省去了读取网络存储系统的IO开销。 -对此您有什么看法见解-
-欢迎在评论区留言探讨和分享。-