首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|元宇宙|博客|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 運營 >> 正文

震憾!走進全球運營商最大的單集群智算中心

2024年11月6日 15:06  競爭情報顧問  

近日,有幸參觀了中國移動智算中心(哈爾濱)。該中心是全球運營商最大單集群智算中心,AI芯片國產(chǎn)化率100%,首次通過國產(chǎn)網(wǎng)絡(luò)設(shè)備探索1.8萬張智算卡單集群部署規(guī)模上限,可提供6.9EFLOPS(每秒690億億次半精度浮點運算)智能算力,融合分級存儲達(dá) 150P,創(chuàng)新應(yīng)用GSE1.0,天池SDN等多項中國移動自主研發(fā)技術(shù)。

中國移動智算中心(哈爾濱)曾用名#哈爾濱數(shù)據(jù)中心,中國移動移動的三大低成本數(shù)據(jù)中心(另外兩個在內(nèi)蒙古和貴州)。

哈爾濱數(shù)據(jù)中心抓住全球大模型高速增長商機,在當(dāng)?shù)卣、集團公司及供應(yīng)鏈伙伴的支持下,基于“D-PDCA雙循環(huán)”管理機制,歷時兩個100天,完成3千多平米高功耗機房重大調(diào)整改造,千萬級精密器件復(fù)雜施工;在30多個單位,千余人的協(xié)同作戰(zhàn)下,提前4個月,建成全球運營商最大單集群智算中心,充分展現(xiàn)了龍江速度。

第一個“一個100天”,完成機房的電源、空調(diào)、電氣、建筑結(jié)構(gòu)的擴容及智能化改造。業(yè)內(nèi)首次挑戰(zhàn)46KW高功耗風(fēng)冷,創(chuàng)新引入大型集裝箱式“10KV中壓直供設(shè)備”新型供電模式,通過規(guī)、建、監(jiān)、施協(xié)同作戰(zhàn),優(yōu)化創(chuàng)新方案、專業(yè)強化管理等措施,實現(xiàn)430可裝機,530全加電,620優(yōu)交付,工期壓縮40%。

第二個“一個100天”,實現(xiàn)智算集群全量設(shè)備點亮。面對大規(guī)模集群施工在技術(shù)領(lǐng)先性、首創(chuàng)性和復(fù)雜性的交付挑戰(zhàn),通過“早啟動、定標(biāo)準(zhǔn)、造工具、融工序、勇創(chuàng)新、強投入”六大舉措,筑牢集群質(zhì)量,實現(xiàn)610可調(diào)測,730全點亮,830全交付,提前4個月投產(chǎn)。

中國移動智算中心(哈爾濱)支持萬卡并行訓(xùn)練,智能斷點續(xù)訓(xùn),AI任務(wù)生命周期管理,分鐘級故障定界、定位。目前,中國移動九天千億參數(shù)模型已在集群上實現(xiàn)高效、長期穩(wěn)定訓(xùn)練。

中國移動智算中心(哈爾濱)通過科學(xué)管理、精細(xì)化設(shè)計和高工藝實施,完成集群穩(wěn)定性、算力效率、海量數(shù)據(jù)和高可用性挑戰(zhàn),打造具備極致算力、極限組網(wǎng)、極效存儲、極速運維的智算“超級工廠”,釋放算力集群優(yōu)勢,為萬億模型訓(xùn)練提供強大的算力底座。

極致算力,AI芯片國產(chǎn)化率100%,首次通過國產(chǎn)網(wǎng)絡(luò)設(shè)備探索1.8萬張智算卡單集群部署規(guī)模上限,算力達(dá)到 6.9EFLOPS(每秒 690 億億次半精度浮點運算),通過單一集群強大算力有效支撐大型AI模型訓(xùn)練,并通過網(wǎng)絡(luò)精細(xì)化設(shè)計、軟硬件全棧整合優(yōu)化,實現(xiàn)集群算力效率的近線性提升,確保萬卡集群最大化釋放算力,滿足萬億參數(shù)大模型訓(xùn)練要求。

極限組網(wǎng),采用國產(chǎn)46KW 風(fēng)冷網(wǎng)絡(luò)設(shè)備、構(gòu)建最大規(guī)模兩級組網(wǎng)。高性能、高功耗國產(chǎn)網(wǎng)絡(luò)設(shè)備首次端口滿負(fù)荷配置,達(dá)到網(wǎng)絡(luò)設(shè)備能力上限,采用高速、低延時、無阻塞兩級組網(wǎng),保證數(shù)據(jù)的高效通信。創(chuàng)新應(yīng)用中國移動自研的天池SDN,提供網(wǎng)絡(luò)功能自服務(wù)能力;創(chuàng)新引入中國移動自主知識產(chǎn)權(quán)、首個非美標(biāo)智算組網(wǎng)GSE技術(shù)。

極效存儲,面對萬億模型PB級訓(xùn)練數(shù)據(jù)集的多協(xié)議處理,采用大規(guī)模融合分級存儲,通過訓(xùn)練數(shù)據(jù)智能分級和統(tǒng)一管理,實現(xiàn)數(shù)據(jù)高效共享和處理,滿足大模型訓(xùn)練時海量、多樣數(shù)據(jù)的高效處理和高吞吐要求。

極速運維,建立SLA標(biāo)準(zhǔn)服務(wù)支撐體系,提供矩陣式維護服務(wù);部署一體化智能管控工具,對AI訓(xùn)練任務(wù)進行全生命周期管理,實現(xiàn)小時級智能斷點續(xù)訓(xùn)、分鐘級故障定界定位;建立Class8級機房環(huán)境標(biāo)準(zhǔn),降低千萬精密器件故障率。通過制度、技術(shù)和標(biāo)準(zhǔn)三大措施,保障萬張AI加速卡長時間穩(wěn)定并行訓(xùn)練,為萬億模型訓(xùn)練提供高性能、高可用、高可靠的算力底座。

“該集群高效靈活的智算云服務(wù)能力,將為萬億級大模型提供高效、穩(wěn)定、安全可控的算力底座,推動國內(nèi)人工智能產(chǎn)業(yè)健康發(fā)展!敝袊苿雍邶埥菊笫聵I(yè)部經(jīng)理郅剛說。

編 輯:霏雯
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請在相關(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
愛立信中國區(qū)總裁方迎:新質(zhì)網(wǎng)絡(luò)創(chuàng)造新質(zhì)價值
精彩專題
2024中國算力大會
2024年國際信息通信展
中國信科亮相2024年國際信息通信展
第25屆中國國際光電博覽會
CCTIME推薦
關(guān)于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像