中国移动原创GSE技术在超万卡智算中心首次规模商用

中国移动积极响应国家关于加快算力基础设施建设的号召,8月30日正式投产中国移动智算中心(哈尔滨),部署超1.8万张国产GPU卡,可提供高达6.9EFLOPS的强大智能算力,成为全球运营商最大单集群智算中心,可为万亿级模型训练提供高效、稳定的算力底座。大模型需要大算力,大算力需要高性能网络。智算中心高性能网络技术长期被西方科技巨头垄断,本项目首次商用中国移动原创提出的全调度以太网(GSE 1.0)技术方案,将训练过程中的通信时间占比缩短20%以上,达到国际领先水平。

原创GSE技术体系,打造”AI网络的中国方案”

传统智算中心网络技术主要包括InfiniBand和RoCE两种技术路线,InfiniBand作为英伟达GPU配套的私有网络方案,在市场中占据重要地位,但其产业开放性、部署成本面临挑战。而RoCE底层采用传统以太网,产业开放性好,但性能受到制约。随着AI大模型的快速发展,智算中心网络的技术已经成为全球人工智能巨头关注的焦点,其核心是新一代以太网技术突破。

在这一背景下,中国移动抓住智算中心网络升级换代的契机,2023年5月发布了全调度以太网技术(GSE),与此类似,同年7月,Meta、微软、博通等9家西方AI巨头提出了超以太网(UEC)技术,技术愿景和核心理念与GSE基本一致,GSE与UEC成为全球新一代智算中心网络的两大主流技术。

为兼顾智算中心建设节奏和技术发展需求,中国移动将全调度以太网技术划分为GSE1.0和GSE2.0两个商用阶段,其中,GSE1.0旨在快速满足近两年智算中心超万卡建设需求,基于现有芯片最大限度优化上层协议,提升网络性能。GSE2.0旨在满足未来智算中心超高网络性能需求,全面革新以太网底层转发机制和上层协议栈,并研发全新高速以太网交换芯片,从根本上解决传统以太网性能不足的问题。

突破组网和工程难题,基于GSE1.0构建超万卡集群

为实现GSE1.0技术体系在超万卡集群规模应用,还需要突破超大规模集群网络架构设计和超高可靠工程实施两大难题。

面对超万卡大规模网络架构设计,项目组在芯片制程受限的情况下,综合考虑建设成本、网络性能和可靠性,提出自主可控框式设备+盒式设备两层组网架构,并开展仿真分析和实验室测试,验证了数十种参数组合方案,确定了最优配置,实现了高性能、超万卡目标。

超万卡集群中,因网络问题导致的训练中断次数约占整个故障的40%,不仅严重影响训练效率,还增加了运维成本。项目组联合合作伙伴推出了任务劣化实时感知以及网络故障精准定位等技术,显著降低因网络故障导致的训练中断时间,避免算力损失,助力集群高可用。

全调度以太网GSE1.0已经实现超万卡集群规模商用,当前中国移动及合作伙伴正在加快GSE2.0技术攻关和标准制定,并推动研发51.2T及以上GSE交换芯片,力争提升网络性能超50%,支撑未来十万卡规模智算中心建设。同时,中国移动积极承担推动AI产业和智算网络发展的央企责任,携手“GSE推进计划”的40余家产学研合作伙伴,共同推动GSE技术和产业生态发展,希望将GSE技术体系打造成为全球主流AI网络技术方案,为世界贡献中国智慧,助力全球AI产业发展。


微信扫描分享本文到朋友圈
扫码关注5G通信官方公众号,免费领取以下5G精品资料
  • 1、回复“YD5GAI”免费领取《中国移动:5G网络AI应用典型场景技术解决方案白皮书
  • 2、回复“5G6G”免费领取《5G_6G毫米波测试技术白皮书-2022_03-21
  • 3、回复“YD6G”免费领取《中国移动:6G至简无线接入网白皮书
  • 4、回复“LTBPS”免费领取《《中国联通5G终端白皮书》
  • 5、回复“ZGDX”免费领取《中国电信5GNTN技术白皮书
  • 6、回复“TXSB”免费领取《通信设备安装工程施工工艺图解
  • 7、回复“YDSL”免费领取《中国移动算力并网白皮书
  • 8、回复“5GX3”免费领取《R1623501-g605G的系统架构1
  • 本周热点本月热点

     

      最热通信招聘

      最新招聘信息

    最新技术文章

    最新论坛贴子