9月28日,由中國(guó)信息通信研究院主辦的2024中國(guó)算力大會(huì)·智算集成服務(wù)論壇在鄭州成功舉行。論壇邀請(qǐng)了產(chǎn)業(yè)內(nèi)權(quán)威專家代表,圍繞“AI算力基礎(chǔ)設(shè)施建設(shè)、算力平臺(tái)服務(wù)”等議題,分享企業(yè)級(jí)人工智能應(yīng)用實(shí)踐成果。中國(guó)移動(dòng)集團(tuán)網(wǎng)絡(luò)事業(yè)部處長(zhǎng)蔡旭輝發(fā)表了題為《打造卓越智算運(yùn)維新體系,推動(dòng)AI規(guī)模應(yīng)用》的主題演講。蔡旭輝表示,隨著人工智能技術(shù)的飛速發(fā)展,中國(guó)移動(dòng)立足產(chǎn)品、服務(wù)、生態(tài),構(gòu)建了全棧算智融合新體系。
“中國(guó)移動(dòng)采用智算中心“N+X”架構(gòu)體系。其中N節(jié)點(diǎn)是用來(lái)滿足全網(wǎng)跨區(qū)域、跨省和AI大模型訓(xùn)練,以及區(qū)域內(nèi)AI訓(xùn)練、精調(diào)、并發(fā)業(yè)務(wù)的需求,X節(jié)點(diǎn)是面向邊緣產(chǎn)品和私有化產(chǎn)品的需求。”蔡旭輝介紹到。中國(guó)移動(dòng)在呼和浩特和哈爾濱建設(shè)了的超大規(guī)模智算中心節(jié)點(diǎn),其中呼和浩特節(jié)點(diǎn)被評(píng)為央企十大超級(jí)工程。
中國(guó)移動(dòng)集團(tuán)網(wǎng)絡(luò)事業(yè)部處長(zhǎng)蔡旭輝 發(fā)表主題演講
當(dāng)前運(yùn)營(yíng)商業(yè)務(wù)已走進(jìn)算力時(shí)代,區(qū)別于通用計(jì)算時(shí)代分層解耦的建設(shè)和運(yùn)維模式,大規(guī)模的智算中心集群建設(shè)是極其復(fù)雜的系統(tǒng)工程。蔡旭輝列舉了智算中心組網(wǎng)中的多個(gè)痛點(diǎn),如模型并行計(jì)算帶來(lái)的高頻訓(xùn)練中斷問(wèn)題、硬件定位業(yè)務(wù)恢復(fù)時(shí)間長(zhǎng)、上下層全棧可視難度大、跨組織協(xié)同響應(yīng)難、多廠商設(shè)備聯(lián)合調(diào)優(yōu)難等挑戰(zhàn)。
針對(duì)這些挑戰(zhàn),中國(guó)移動(dòng)網(wǎng)絡(luò)事業(yè)部秉持運(yùn)維規(guī)范化、標(biāo)準(zhǔn)化和確定性的理念,構(gòu)建了訓(xùn)練中斷少、故障恢復(fù)快、服務(wù)支撐好的智算運(yùn)營(yíng)服務(wù)。包括重塑了智算運(yùn)維質(zhì)量文化,打造高可用架構(gòu)方案,定義核心指標(biāo)治理以及體系指標(biāo)等,研發(fā)智能化的解決方案,進(jìn)而提升運(yùn)維效率。
在智算運(yùn)維質(zhì)量文化方面,高度重視AI智算運(yùn)維人才的培養(yǎng)和培訓(xùn),聯(lián)合華為和合作伙伴構(gòu)建了超過(guò)200人的專家團(tuán)隊(duì),建立了體系化的智算人才培養(yǎng)機(jī)制。同時(shí),打通智算運(yùn)維從客戶對(duì)接到故障處理的端到端系統(tǒng),并構(gòu)建總部、省公司、專業(yè)公司及客戶的協(xié)同運(yùn)維機(jī)制,實(shí)現(xiàn)數(shù)據(jù)層的可視,進(jìn)而提升運(yùn)維效率。
在智算架構(gòu)方面,中國(guó)移動(dòng)構(gòu)建了構(gòu)建端到端智算高可用架構(gòu),保障訓(xùn)推任務(wù)全流程的穩(wěn)定性,并構(gòu)建了AI任務(wù)全鏈路監(jiān)控保障體系,提供120多種軟硬件健康檢查,分鐘級(jí)集群故障定位定界,全方位助力智算集群管控調(diào)優(yōu)。
在運(yùn)維指標(biāo)方面,中國(guó)移動(dòng)圍繞智算運(yùn)維探索可靠性黃金指標(biāo),構(gòu)建了80多個(gè)關(guān)鍵的指標(biāo)體系。重點(diǎn)提升智算集群的模型算力運(yùn)用率MFU,故障時(shí)長(zhǎng)MTTR、長(zhǎng)穩(wěn)訓(xùn)練時(shí)長(zhǎng)三個(gè)黃金指標(biāo),助力大模型訓(xùn)練任務(wù)高效穩(wěn)定運(yùn)行。同時(shí),在運(yùn)維服務(wù)方面,構(gòu)建了中國(guó)移動(dòng)算力運(yùn)維平臺(tái),打造自主領(lǐng)先的AI+算力運(yùn)維服務(wù),采用SRE運(yùn)維模式,根據(jù)運(yùn)維場(chǎng)景化需求構(gòu)建AI+全景觀測(cè)、智算運(yùn)維智能體等能力。目前該平臺(tái)已經(jīng)納管通算智算設(shè)備近百萬(wàn)臺(tái),總體智算規(guī)模26.5億FLOPS,日均消息處理量是110億條,成為電信行業(yè)納管規(guī)模最大的算力運(yùn)維平臺(tái),支持中國(guó)移動(dòng)智算中心的高效運(yùn)維以及對(duì)客戶的服務(wù)。
蔡旭輝分享了中國(guó)移動(dòng)與華為等合作伙伴在提升大規(guī)模智算集群運(yùn)維關(guān)鍵指標(biāo)方面的合作成果,并介紹在全球運(yùn)營(yíng)商最大的單體智算中心——呼和浩特智算中心應(yīng)用的智能運(yùn)維方案,實(shí)現(xiàn)全域資源實(shí)時(shí)監(jiān)控和故障快速定位。同時(shí),中國(guó)移動(dòng)還在智算中心網(wǎng)絡(luò)故障診斷方面與高校深度合作,打造基于智算網(wǎng)絡(luò)的AI全腦網(wǎng)絡(luò)診斷智能體,覆蓋故障監(jiān)測(cè)與處理、性能優(yōu)化、配置管理、流量分析與管理等場(chǎng)景,有效降低了智算網(wǎng)絡(luò)的運(yùn)維工作量。
最后,蔡旭輝倡議中國(guó)移動(dòng)愿攜手合作伙伴,共創(chuàng)中國(guó)智算產(chǎn)業(yè)繁榮生態(tài),共同探索智能運(yùn)維實(shí)踐并分享創(chuàng)新成果,共同構(gòu)建行業(yè)標(biāo)準(zhǔn),合力攻堅(jiān)共筑算力藍(lán)圖,加速推動(dòng)AI大規(guī)模應(yīng)用。