腾讯推出了一条大模型“高速公路”

2023-06-30 16:00:00 来源：

　　你在和AI机器人的对话框中，敲下一行想问的问题：现在你是一位英语老师，请帮我写一封邮件……

　　AI机器人的回复光标，在对话框中闪动数秒——这几秒背后，是AI大模型正在经历一轮高速而密集的计算过程。

　　顾名思义，“AI大模型”指拥有巨大的参数量的模型，其训练和推理也需要巨大算力挑战。这对底层基础设施：芯片、网络、存储、计算的要求，达到了前所未有的高度，迫使基础设施经历一轮升级。

　　近日，腾讯云就首次对外完整披露自研高性能计算网络“星脉”，专门面向AI大模型训练。

　　高性能计算计算网络如同AI大模型的“高速公路”和管道，数据在其中快速流动、交换。高性能计算网络连接了大量的服务器，组成算力集群。网络、服务器互联互通，才能共同完成AI的训练任务。

　　但大集群并不等同于大算力。计算集群越大，产生的额外通信损耗越多。因此，对AI大模型的网络而言，大带宽、高利用率、信息无损，是其面临的核心挑战。

　　腾讯云自研的“星脉”，是服务于AI大模型的专属高性能计算网络。在交换机、通信协议、通信库以及运营系统等方面，腾讯在软件和硬件层面，都进行了升级和创新。

　　就具体参数而言，腾讯云的“星脉”网络支持单服务器从1.6T升级到3.2T，这如同将“高速公路”拓宽了两倍，能传输更多的数据。

　　带来的计算效果提升也是明显的。据腾讯云，“星脉”能够提升40%的GPU利用率，节省30%-60%的模型训练成本，为AI大模型带来10倍的通信性能提升。

　　事实上，从传统的计算网络到如今的高性能网络，都是由关键的技术革新所驱动的。

　　以腾讯自身为例，腾讯的计算网络发展也经历了三大阶段：

　　一、互联网服务时期：腾讯的起家产品QQ和微信，促使腾讯建立起了一张的巨大的计算网络。就以QQ为例，在线时长超过1亿，对应的服务器规模就超过了10万。“此时，网络的走向是比较常见的’南北向流量‘——也就是外部的用户的访问需求为主。”腾讯云副总裁、腾讯网络平台部的总经理王亚晨表示。

　　二、云服务时期：腾讯云不仅要服务自家的业务需求，也开始对外向企业提供云服务。此时，底层计算网络的形态也会发生变化。

　　购买云算力的企业用户，相当于在腾讯云上“租”了一个个小房子。云时代需要传输的数据，也不只是外部访问需求（比如C端用户要看电影、购物等），而是出现了大量“东西向”流量。

　　数据中心之间的互访流量越来越多——比如企业用户需要调用自己在云上的各类数据，这些数据存放在腾讯云不同的格子中。这对网络要求也更高，比如时延要求比以前是10倍甚至更高提升。

　　三、AI大模型时期：到了大模型时期，训练大模型需要巨量的数据和算力，这对计算网络的带宽需要经历再一次提升。

　　比起外部访问的流量，AI大模型的从开发到应用主要会分为两个阶段，在训练阶段，大模型的网络需求，大多来自以服务器和服务器之间的流量——也就是“东西向”流量为主，而非以前的外部访问流量。

　　“如果说过去前两个阶段，我们是村村通，解决大规模部署和广覆盖的问题，到了第三个阶段的星脉网络，我们解决的是高速公路，全自动化、无拥塞的高速公路。”王亚晨打了个比方。

　　通用AI大模型的GPU算力基本要到数千张甚至万卡级别。如何在服务器中部署这样的“高速公路”？

　　王亚晨表示，腾讯云主要通过自研设备搭建告诉公路，包括自研的交换机、光模块等，可以做到更快迭代。

　　腾讯也给每台服务器配备了高性能通信库TCCL，相当于“导航”，感知到网络拓扑，感知到路径的拥塞情况，做一些通信加速。腾讯也自研了端网协同的TiTa协议，这相当于在出现拥塞问题时，让数据重新“排队”通过。

　　而对于整个计算网络，“星脉”配置了全栈网络运营系统，进行验收部署、故障处理和问题定位。对大规模服务器集群的管理需要长时间的积累，王亚晨表示，最早腾讯做一个定位都是以天为级别的，但如今星脉可以实现故障的自动诊断，可以把时间降到分钟级。

　　在“星脉”高性能计算网络基础上，如今腾讯已经进行大模型的相关训练。以万亿参数大模型为例，在前年，100G网络训练相同数据需要50天;但在今年上半年，腾讯用七天时间就可以完成相同的训练。

　　王亚晨表示，在未来，随着数据集、参数不断增加，腾讯也有计划推出星脉2.0版本，包括GPU的互联规模、带宽、计算加速等等环节。“到下半年，我们可能就会推出互联数据达到800G、1.6T带宽的解决方案。