首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|芯片|物聯(lián)網(wǎng)|量子|低空經(jīng)濟|智能汽車|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|大數(shù)據(jù)|報告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 頭條資訊 >> 正文

昇騰算力煉出業(yè)界一流大模型

2025年6月3日 08:27  澎湃新聞  

近日,華為在MoE模型訓(xùn)練領(lǐng)域再進一步,重磅推出參數(shù)規(guī)模高達7180億的全新模型——盤古Ultra MoE,這是一個全流程在昇騰AI計算平臺上訓(xùn)練的準(zhǔn)萬億MoE模型。華為同時發(fā)布盤古Ultra MoE模型架構(gòu)和訓(xùn)練方法的技術(shù)報告,披露眾多技術(shù)細節(jié),充分體現(xiàn)了昇騰在超大規(guī)模MoE訓(xùn)練性能上的跨越。

訓(xùn)練超大規(guī)模和極高稀疏性的 MoE 模型極具挑戰(zhàn),訓(xùn)練過程中的穩(wěn)定性往往難以保障。針對這一難題,盤古團隊在模型架構(gòu)和訓(xùn)練方法上進行了創(chuàng)新性設(shè)計,成功地在昇騰平臺上實現(xiàn)了準(zhǔn)萬億 MoE 模型的全流程訓(xùn)練。

在模型架構(gòu)上,盤古團隊提出Depth-Scaled Sandwich-Norm(DSSN)穩(wěn)定架構(gòu)和TinyInit小初始化的方法,在昇騰平臺上實現(xiàn)了超過18TB數(shù)據(jù)的長期穩(wěn)定訓(xùn)練。此外,他們還提出了 EP loss負載優(yōu)化方法,這一設(shè)計不僅保證了各個專家之間的能保持較好的負載均衡,也提升了專家的領(lǐng)域特化能力。同時,盤古Ultra MoE使用了業(yè)界先進的MLA和MTP架構(gòu),在預(yù)訓(xùn)練和后訓(xùn)練階段都使用了Dropless訓(xùn)練策略,實現(xiàn)了超大規(guī)模MoE架構(gòu)在模型效果與效率之間的最佳平衡。

在訓(xùn)練方法上,華為團隊首次披露在昇騰CloudMatrix 384超節(jié)點上,高效打通大稀疏比MoE強化學(xué)習(xí)(RL)后訓(xùn)練框架的關(guān)鍵技術(shù),使RL后訓(xùn)練進入超節(jié)點集群時代。同時,在5月初發(fā)布的預(yù)訓(xùn)練系統(tǒng)加速技術(shù)基礎(chǔ)上,在不到一個月的時間內(nèi),華為團隊又完成了一輪迭代升級,包括:適配昇騰硬件的自適應(yīng)流水掩蓋策略,進一步優(yōu)化算子執(zhí)行序,進一步降低Host-Bound以及提升EP通信的掩蓋;自適應(yīng)管理內(nèi)存優(yōu)化策略的開發(fā);數(shù)據(jù)重排實現(xiàn)DP間Attention負載均衡;以及昇騰親和的算子優(yōu)化,這些技術(shù)實現(xiàn)萬卡集群預(yù)訓(xùn)練MFU由30%大幅提升至 41%。

此外,近期發(fā)布的盤古Pro MoE大模型,在參數(shù)量僅為720億,激活160億參數(shù)量的情況下,通過動態(tài)激活專家網(wǎng)絡(luò)的創(chuàng)新設(shè)計,實現(xiàn)了以小打大的優(yōu)異性能,甚至可以媲美千億級模型的性能表現(xiàn)。在業(yè)界權(quán)威大模型榜單SuperCLUE最新公布的2025年5月排行榜上,位居千億參數(shù)量以內(nèi)大模型排行并列國內(nèi)第一。

華為盤古Ultra MoE和盤古Pro MoE系列模型的發(fā)布,證明華為不僅完成了國產(chǎn)算力+國產(chǎn)模型的全流程自主可控的訓(xùn)練實踐,同時在集群訓(xùn)練系統(tǒng)的性能上也實現(xiàn)了業(yè)界領(lǐng)先。這意味著國產(chǎn)AI基礎(chǔ)設(shè)施的自主創(chuàng)新能力得到了進一步驗證,為中國人工智能產(chǎn)業(yè)的發(fā)展提供了一顆“定心丸”。

編 輯:路金娣
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請在相關(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
推薦新聞              
 
人物
中興通訊首席發(fā)展官崔麗:數(shù)智賦能 共拓中拉合作新路徑
精彩視頻
飛象趣談第二十七期!中國3G的艱難第一步,自主標(biāo)準(zhǔn)TD-SCDMA的苦與甜
徐工漢云張啟亮:聚焦AI+工業(yè)互聯(lián)網(wǎng),開啟美好智造未來
中國電信蘇州分公司李翔:“PON+AI”深度融合,推動工業(yè)智能化升級
浪潮云洲工業(yè)互聯(lián)網(wǎng)副總經(jīng)理李明明:“數(shù)智融合”賦能企業(yè)數(shù)字化轉(zhuǎn)型新型化躍遷
精彩專題
2025工業(yè)互聯(lián)網(wǎng)大會
2025世界電信和信息社會日大會
第八屆數(shù)字中國建設(shè)峰會
通信產(chǎn)業(yè)2024年業(yè)績盤點
關(guān)于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像