华为发布AI训练集群Atlas 900：全球第一相当于50万台PC的计算力

【天极网IT新闻频道】今日（18日），在上海举行的第四届华为全联接大会上，华为轮值董事长胡厚崑正式发布了华为智能计算战略以及全球最快的AI训练集群Atlas 900。

根据胡厚崑的介绍，Atlas 900是当前全球最快的AI训练集群，由数千颗昇腾处理器组成。在衡量AI计算能力的金标准ResNet-50模型训练中，Atlas 900只用了59.8秒就完成了训练，这比原来的世界记录还快了10秒。Atlas 900总算力达到256P～1024P FLOPS @FP16，相当于50万台PC的计算能力。

胡厚崑表示，Atlas 900的强大算力可广泛应用于科学研究和商业创新。比如天文探索、石油勘探等领域，都需要进行庞大的数据计算和处理。

胡厚崑还分享了一个由华为联合上海天文台与SKA共同打造的天文探索案例。天文研究高度依赖于海量的数据分析和计算，离不开超强的算力支持。在这张南半球的星空图上有20万颗星星，用人眼是看不见这么多星星的，这些画面来自于SKA射电望远镜的数据。

胡厚崑表示，“当前条件下，天文学家要从这20万颗星星中，找出某种特征的星体，相当困难，一个天文学家需要耗费169天的工作量，才能完成这项工作。现在用上Atlas 900，只用10秒，就从20万颗星星中检索出了相应特征的星体。”

Atlas 900 AI训练集群技术特色：

在AI算力方面，Atlas 900 AI训练集群采用业界单芯片算力最强的昇腾910 AI处理器，每颗昇腾910 AI处理器内置32个达芬奇AI Core，单芯片提供比业界高一倍的算力(256TFLOPS@FP16)。Atlas 900 AI训练集群将数千颗昇腾910 AI处理器互联，打造业界第一的算力集群。

昇腾910 AI处理器采用SoC设计，集成“AI算力、通用算力、高速大带宽I/O”，大幅度卸载Host CPU的数据预处理任务，充分提升训练效率。

在集群网络方面，Atlas 900 AI训练集群采用“HCCS、 PCIe 4.0、100G以太”三类高速互联方式，百TB全互联无阻塞专属参数同步网络，降低网络时延，梯度同步时延缩短10~70%。

在AI服务器内部，昇腾910 AI处理器之间通过HCCS高速总线互联;昇腾910 AI处理器和CPU之间以最新的PCIe 4.0(速率16Gb/s)技术互联，其速率是业界主流采用的PCIe 3.0(8.0Gb/s)技术的两倍，使得数据传输更加快速和高效。在集群层面，采用面向数据中心的CloudEngine 8800系列交换机，提供单端口100Gbps的交换速率，将集群内的所有AI服务器接入高速交换网络。

独创iLossless 智能无损交换算法，对集群内的网络流量进行实时的学习训练，实现网络0丢包与E2E μs级时延。

系统级调优方面，Atlas 900 AI训练集群通过华为集合通信库和作业调度平台，整合HCCS、 PCIe 4.0 和100G RoCE三种高速接口，充分释放昇腾910 AI处理器的强大性能。

华为集合通信库提供训练网络所需的分布式并行库，通信库+网络拓扑+训练算法进行系统级调优，实现集群线性度>80%，极大提升了作业调度效率。

在散热系统方面，Atlas 900 AI训练集群采用全液冷方案，创新性设计柜级密闭绝热技术，支撑>95%液冷占比。单机柜支持高达50kW超高散热功耗，实现PUE<1.1的极致数据中心能源效率。

另外，在空间节省方面，与8kW风冷机柜相比，节省机房空间79%。极致的液冷散热技术满足了高功率、高密设备部署、低PUE的需求，极大地降低了客户的TCO。