中国电信傅志仁：国内国外双轮驱动，推动智算网络相关接口和协议标准化

2024-07-11 14:22:00 - C114通信网

C114讯7月11日消息（水易）在近日举行的“2024算网融合产业发展大会”主论坛上，中国电信研究院副院长傅志仁分享了中国电信在智算网络技术的探索和实践。

傅志仁表示，人工智能引爆算力需求，模型向百亿级参数演进。虽然随着创新优化，未来训练计算量增长放缓，但仍需要十万卡级GPU集群。而国内受需求、技术等方面制约，十万卡集群短期建设及商用可能性较小。

另外，傅志仁指出：“算力不会走路，能走的就是数据。”而AI大模型训练/推理等工作需要在大量的计算单位中传递海量数据，需要智算网络具备超大规模、超低时延、超大带宽、超高可靠等关键特征。

面向当下万卡场景，解决国产集群性能低、生态差、效率低的问题，以及面向未来更大规模场景，实现高性能计算和网络根技术的自主掌控是关键。傅志仁介绍，中国电信的智算基础研发布局，主要从芯片硬件、软件生态、互联能力、管理调度四个层面出发。

会上，傅志仁重点介绍了中国电信在互联能力层的打造，以AIDC为核心进行组网，综合固移融合的入算网络、多机互联的算内网络、IP/传输的算间网络等能力，形成大规模、高效、无损、灵活的高性能智算网络，提升集群算力性能，破解算力供给发展难题，助力打造云网融合3.0新型算力基础设施。

入算网络方面，数字经济下各行各业都有海量数据产生，需要进行存储、传输以及处理。当前海量数据的传送大多需要靠硬盘搬运或高价格的专线传输，无法同时满足“快、好、惠”。

如何破解这一“不可能三角”问题，中国电信一是推出具有“泛在接入、随建随用、算网协同、安全可信”特性的“超算快线”产品，提供海量数据异属、异构、异域“入算”的统一解决方案。

傅志仁介绍，这一方案在持续完善网络覆盖、提供智算高速泛在入口的基础上，还针对业务的偶发性特点，提出定时定向的大规模数据传输方案，并通过定制化API接口让用户自助申请网络闲时的带宽资源，从而将原本带宽受限的网络线路弹性扩容至高带宽专线，并采用资源预约的机制将数据传输至智算中心进行处理，在满足超大规模数据弹性传输需求的同时，降低算力使用成本、增强用户自服务能力。

算内网络方面，在大模型的训练过程中，每一轮迭代GPU之间均需要传送海量梯度数据，因此需要构建GPU计算单元之间的FULL-MESH全互联与高速通道。主要面临两大挑战，一是建设万卡池全互联理论上需要的5000万条连接，二是机内带宽与机间带宽不匹配，当前机内总线带宽大于机间网络带宽。

面对这一因网络能力不足导致算力效率降低的技术问题，业界主要从四个技术维度解决智算网络端到端承载的效率问题，即集合通信库、拥塞控制、流量控制和负载均衡，具体解决方案分别聚焦端侧、网侧和端网协同侧。

同时中国电信开展新型RDMA拥塞控制技术创新，自研算法通过端侧主动探测感知网络拥塞进行精细化流控，有效提高收敛速度、控制交换机队列长度、降低小流延迟以及在NO-PFC/NO-ECN配置下避免丢包保证网络稳定性。

算间网络方面，大模型训练需求下，智算中心规模受限，如何不新建/不穿墙打洞服务于大规模智算资源需求；同时电力供应/机房空间成为大规模智算建设的瓶颈，需要解决单机房供电散热、空间不足等问题。

傅志仁介绍，针对智算资源整合及分布式训练需求，可通过长距RDMA等新技术将百公里距离的多个智算中心并联成虚拟的大型智算中心节点，目前已经完成系列技术验证证明该技术方向可行。

“从理论到实践需要标准化的支撑。”傅志仁强调，中国电信坚持国际化和国产化两条技术路线并举的双轮驱动原则，聚焦国际UEC以及国内CCSA等产业联盟/标准组织，开展产业链对话、交流、合作，增强技术协作，统一共识，将中国电信的网络/业务/产品等需求纳入规范，推动智算网络相关接口和协议的标准化。

傅志仁表示，希望产学研合作、产业联盟、算力提供商、网络供应商、技术/服务提供商齐心协力，打造广泛合作、生态开放、协同创新的智算基础设施。中国电信也将不断夯实网络基础，深化云网融合3.0，打造新型智算基础设施生态，培育新质生产力。