【中國,北京,2024年12月23日】在由中國信息通信研究院主辦的智算IP廣域網產業(yè)交流會上,中國電信股份有限公司北京分公司(以下簡稱“北京電信”)云網發(fā)展部規(guī)劃總監(jiān)姚凌分享了“打造高品質智算廣域網,百公里無損聯(lián)算服務首都新發(fā)展”的演講。姚凌表示北京電信通過智算廣域網將京津冀三地算力中心資源整合,探索多算力中心協(xié)同完成超大模型訓練的多點共算新模式。采用新型流級擁塞控制,無損調度和深度負載均衡智算廣域網技術,保證網絡傳輸吞吐率95%以上,從而實現跨智算中心算效不下降,高效服務人工智能產業(yè)發(fā)展需求。
算力需求每年增長10倍,運營商規(guī)劃構建萬卡集群,協(xié)同完成超大模型訓練。受供電、機房環(huán)境等因素限制,單智算中心物理環(huán)境不滿足萬卡集群的建設需求。通過廣域網絡聯(lián)接跨幾百到上千公里的異地算力中心,會面臨兩個關鍵技術點挑戰(zhàn): 一是跨DC大模型訓練極端情況流量瞬時并發(fā)達上千Tbps,需要考慮收斂比和訓練效率之間平衡最優(yōu)比。二是RDMA長距傳輸對于丟包十分敏感,千分之一丟包會導致網絡吞吐率下降,影響算卡效率并造成資源浪費。
北京電信通過新一代智算路由器打造智算廣域網,采用新型流級擁塞控制技術,可精準快速識別網絡發(fā)生擁塞或故障,并基于流進行擁塞控制,確保擁塞不擴散到全網。同時采用路由器廣域無損調度和負載均衡技術,避免數據丟包導致算卡計算效率下降,現網實際驗證跨100公里長距算效僅降1%。
姚凌表示北京電信后續(xù)將持續(xù)探索多DC協(xié)同技術研究,目前正在聯(lián)合云公司開展智算拉遠四階段驗證;谙⑷阑劬壑悄苣P头⻊掌脚_,驗證百川等真實客戶模型拉遠效果,逐步推進智算拉遠方案走向商用。