腾讯云星脉斩获2023未来网络领先科技成果奖
刚刚获悉,在南京举办的未来网络发展大会上,腾讯云星脉凭借面向AI大模型的高性能算力网络领域的突破性创新,斩获2023中国未来网络领先创新科技成果奖。
据悉,未来网络领先创新科技成果奖是由中国通信学会面向全社会公开征集和评选产生,内容涉及5G/6G网络、算力网络、网络安全、人工智能、空天一体化网络等领域。由于参选内容极具前瞻性和前沿性,该奖项已经成为未来网络发展的重要风向标。
星脉是腾讯云推出的大模型专属高性能网络,能够为大模型训练提供大带宽、高利用率以及零丢包的高性能网络服务,其通信带宽达到业界最大的3.2T,支持10万卡集群组网。
今年以来,以大模型为代表的AIGC技术,在全球范围内引发新一轮智能化浪潮,被视为是重塑人类未来的新技术。AIGC的爆发除了带来算力上的挑战之外,还对网络的传输和稳定提出了新的需求。
腾讯云基于全面自研能力,在交换机、通信协议、通信库以及运营系统等方面,进行了软硬一体的升级和创新,推出了星脉网络。
比如,星脉网络采用自研算力网络交换机,并针对AI大模型并行训练流量特征,创新性地设计了具有流量亲和性、突破标准数据中心网络集群规模的多轨道架构,支持业界最大的3.2T GPU服务器接入带宽,单训练任务支持10万卡集群组网。
在软件方面,自研的TiTa网络协议,采用先进的拥塞控制和管理技术,能够实时监测并调整网络拥塞,满足大量服务器节点之间的通信需求,确保数据交换流畅、延时低,使集群通信效率达90%以上,超过传统以太网在AI场景下60%的水平。
与此同时,腾讯云还为星脉网络设计了高性能集合通信库TCCL,融入定制化解决方案,使系统实现了微秒级感知网络质量。结合动态调度机制合理分配通信通道,可以避免因网络问题导致的训练中断等问题,让通信时延降低40%。
此外,为确保星脉网络的高可用,腾讯云自研了端到端的全栈网络运营系统,通过端网立体化监控与智能定位系统,将端网问题自动定界分析,让整体故障的排查时间由天级降低至分钟级。同时,大模型训练系统的整体部署时间从19天缩减至4.5天,保证基础配置100%准确。
从互联网、云计算时代到目前的大模型时代,腾讯的数据中心网络架构历经三代演进,已经从标准数据中心网络迈入高性能计算网络。腾讯云副总裁王亚晨表示:“星脉网络的推出,将进一步释放AI潜能,全面提升企业大模型的训练效率,在云上加速大模型技术的迭代升级和落地应用。”