构筑“腾讯云智算”品牌：智能高性能网络IHN为AI而生

【天极网IT新闻频道】大模型、AI、算力，是科技行业当前*热门的词汇。大型科技企业纷纷入局，腾讯作为AI Infra的主流玩家，在9月5日开幕的2024腾讯全球数字生态大会上发布了新一代大模型“混元Turbo”，以及AI Infra品牌“腾讯云智算”，加速释放AI生产力。

其中，腾讯云在大会的“AI基础设施专场”重磅发布了智能高性能网络IHN。作为“腾讯云智算”的网络底座，IHN为“腾讯云智算”的卓越性能提供了坚实的基础。腾讯云网络VPC产品负责人王营对IHN进行了全面解析，深入分享了IHN产品的网络架构和技术创新。

算力集群依赖网络性能

2017年Transformer时代开启，AGI展现出变革经济社会的巨大潜能，各类基于大模型的AI应用，例如聊天机器人、文生图、文生视频纷纷面世。大模型从GPT3.0逐步迭代至GPT4，集群规模也从百卡、千卡、万卡逐步提升至十万卡，展现出AI对算力的强劲需求。

数据显示，在过去四年间，推理算力提升了32倍，训练算力提升了16倍，两者均呈现出陡峭的增长曲线。然而，相比之下，网络带宽的增长仅为4倍，这一增速远不及算力的飞跃，导致了网络带宽在支撑快速增长的算力性能时显得力不从心，陷入“拖后腿”的尴尬境界;此外随着芯片厂商加大GPU布局，智算中心内出现了越来越多来自不同厂商、不同型号的GPU，网络侧的“担子”愈加沉重，亟待支持高效的异构组网方案，提高算力性能。

王营谈到了四个挑战：

一是通信带宽，AI大模型场景需要支撑PB级训练数据，GPU卡间需要频繁通信，训练过程中通信占比*高可达50%，通信带宽影响算力性能发挥。

二是网络丢包，训练情况下通常使用RDMA网络进行加速数据的传输，RDMA对丢包比较敏感，根据相关研究报告，网络持续出现0.1%的丢包，可能会导致50%的算力损失。

三是网络延时，AI训练依赖的RDMA网络对延时极度敏感，不同的网络架构延时差*高能够达到5倍。

四是网络故障，大规模集群使得网络故障概率水涨船高，算力卡、光模块、线缆均会导致AI训练任务出现中断，需要从上次存档点重新训练，将造成算力的巨大浪费。

可以说，算力集群的实战表现，严重依赖底层网络性能，大集群不等于大算力。

高性能网络IHN特征详解

面向智算时代，业界首先需要一套大带宽、低延时的无损网络支撑GPU的超强算力;其次，需要极简的运维，提供网络自愈和快速排障能力，提升训练效率;*后，需要具备超强的兼容性，满足异构算力接入和上下游计算、存储协同，构建“算存网”一体化方案。

王营指出，腾讯云智能高性能网络IHN是基于支撑腾讯万卡集群的星脉网络技术，打造的卓越性能与创新价值的商业化产品，旨在解决传统以太网架构与算力基础设施匹配度低的难题。从架构看，腾讯云智能高性能网络IHN分为四个部分：建设系统、控制系统、运维系统、业务网络。

首先是建设系统，一套千卡的GPU集群，一天的空闲*高可产生七十万元的闲置成本，可见网络搭建效率的重要性。IHN提供了从建设到验收到交付的自动化建设系统，通过建模和自动化等多重手段，将千卡集群规模的建设时间控制在30天以内。

其次是控制系统。如同建设高速公路需要有信号控制系统，IHN打造的网络控制系统和端侧控制系统，可实时控制发送报文的路径和效率，提前规避在网络中出现拥塞，实现全局业务流的精准监控、决策和调度，实现分钟级的网络拥塞消除，打造“算力高速公路”。

再次是运维系统。腾讯云IHN运维系统，基于端到端全链路信息采集，实现360度立体无死角监控，支持毫秒级调度、分钟级定位故障和快速自愈。基于系统化的运维流程，配合大量的自动化排障工具，IHN可做到网络故障1分钟发现、3分钟定位，*快5分钟恢复。

*后是业务网络。IHN采用了腾讯全自研的网络设备，包括支持25.6T/51.2T容量交换机，200G/400G硅光模块。基于多轨道网络架构，实现AI流量亲和，路径延时降低40%以上。配合腾讯自研的TCCL集合通信库，实现异构并行通信，训练效率提升20%。同时兼容多个厂商、多种GPU卡，实现异构卡混合部署。

为适配不同场景下客户的需求，如产权独立、自主可控、按需订阅等，IHN支持公有云和私有云的交付形态，提供多产品深度协同，一站式的解决方案。王营透露，IHN产品已在腾讯集团内部深度使用，作为混元大模型infra网络底座，支持超万卡集群规模、多型号异构算力接入、分钟级故障自愈能力，向上支撑了超过700种集团业务。

基于在腾讯现网业务中的IHN应用，每一轮训练迭代，网络利用率基本稳定在90%以上高位，相比标准以太网架构提升了60%;通信在训练过程中占比降至约6%;各类性能指标均有不同幅度的提升。