必讀視頻專題飛象趣談光通信人工智能低空經(jīng)濟5G手機智能汽車智慧城市會展特約記者

九章云極繆旭:強化學(xué)習(xí)云將成為群體智能的放大器

2026年1月13日 11:50CCTIME飛象網(wǎng)

近日,在2025算力生態(tài)大會上,九章云極DataCanvas宣布升級旗下強化學(xué)習(xí)云平臺Agentic RL。此次升級以Agentic強化學(xué)習(xí)(RL,Reinforcement Learning)技術(shù)為核心,直指千行百業(yè)構(gòu)建專業(yè)級專家智能體的需求,旨在推動群體智能規(guī);涞。

九章云極首席科學(xué)家繆旭介紹,新一代強化學(xué)習(xí)云搭載的Agentic RL,是一種可精準(zhǔn)適配各行業(yè)需求的強化學(xué)習(xí)技術(shù),能讓通用AI模型快速升級為行業(yè)專家級智能體。該技術(shù)框架與傳統(tǒng)強化學(xué)習(xí)方案存在本質(zhì)差異,其核心優(yōu)勢在于目標(biāo)設(shè)計的多樣性與聚焦性,通用智能轉(zhuǎn)化為具備領(lǐng)域?qū)iL的專家智能,再以動態(tài)組合放大群體智能,為產(chǎn)業(yè)智能化提供高效解決方案。例如,通過集成自動推理工具,可助力數(shù)學(xué)家解決復(fù)雜數(shù)學(xué)問題;借助3D引擎,能輔助設(shè)計師優(yōu)化工業(yè)設(shè)計。

繆旭表示,人工智能訓(xùn)練范式已從預(yù)訓(xùn)練階段邁入后訓(xùn)練的全新階段。自2024年9月,OpenAI發(fā)布的o1模型通過深度思考模型和Test time scaling技術(shù)重新恢復(fù)scaling Law效應(yīng),標(biāo)志著強化學(xué)習(xí)驅(qū)動的后訓(xùn)練范式崛起。2025年初,DeepSeekR1的發(fā)布進一步驗證了強化學(xué)習(xí)在加速大模型進化方面的巨大潛力。尤其是依賴強推理能力的智能體,強化學(xué)習(xí)在長規(guī)劃過程中展現(xiàn)出卓越性能。

他介紹,大量的行業(yè)實踐驗證表明,Agentic RL已在專業(yè)屬性強的領(lǐng)域展現(xiàn)出不可替代的賦能價值。比如在供應(yīng)鏈優(yōu)化領(lǐng)域,通過九章云極蒸餾強化技術(shù),在R1基模型上訓(xùn)練出的32B小模型表現(xiàn)力超越R1本身;在深度研究智能體方面,開源模型經(jīng)九章云極強化學(xué)習(xí)云訓(xùn)練后,能夠達到與閉源模型相當(dāng)?shù)男Ч?端到端優(yōu)化,則使表現(xiàn)力大幅提升。

這些成功得益于九章云極強化學(xué)習(xí)的三大核心特點:一是高效率獎勵函數(shù)設(shè)計,支持規(guī)則型與多維度獎勵函數(shù),為強化學(xué)習(xí)提供精準(zhǔn)高效的反饋機制;二是全異步系統(tǒng)架構(gòu),通過任務(wù)策略推演與N+T模型更新技術(shù),將GPU使用率穩(wěn)定維持在99%以上,大幅提升訓(xùn)練效率;三是大規(guī)模存儲支撐體系,可實現(xiàn)頻繁高效的模型版本管理,保障強化學(xué)習(xí)過程的穩(wěn)定性與自動化水平。

實測數(shù)據(jù)顯示,九章云極強化學(xué)習(xí)云端到端訓(xùn)練效率較行業(yè)平均水平提升500%,綜合成本直降60%,核心性能指標(biāo)實現(xiàn)行業(yè)領(lǐng)先。在應(yīng)用場景落地層面,產(chǎn)品已在金融、醫(yī)療、制造、零售、農(nóng)業(yè)等多個垂直領(lǐng)域完成標(biāo)桿驗證,展現(xiàn)出強勁的產(chǎn)業(yè)適配能力。

在金融風(fēng)控領(lǐng)域,通過Agentic RL構(gòu)建的智能風(fēng)控系統(tǒng),可實時分析海量交易數(shù)據(jù)并動態(tài)調(diào)整風(fēng)險評分模型。某股份制銀行應(yīng)用后,欺詐識別準(zhǔn)確率提升40%,誤報率下降25%,為信貸審批筑牢安全防線。

在醫(yī)療診斷場景,某三甲醫(yī)院借助強化學(xué)習(xí)云訓(xùn)練影像識別智能體,通過持續(xù)學(xué)習(xí)百萬級病例數(shù)據(jù),在CT影像分析中達到主任醫(yī)師專業(yè)水平,診斷效率提升3倍,同時成功發(fā)現(xiàn)傳統(tǒng)方法遺漏的早期病灶特征。

在智能制造領(lǐng)域,汽車零部件廠商部署的智能排產(chǎn)系統(tǒng),通過強化學(xué)習(xí)優(yōu)化生產(chǎn)調(diào)度,將設(shè)備利用率從65%提升至82%,訂單交付周期縮短30%,實現(xiàn)產(chǎn)能、庫存與客戶優(yōu)先級的動態(tài)平衡。

在零售優(yōu)化場景,連鎖超市的智能定價系統(tǒng)依托強化學(xué)習(xí),整合天氣、客流、競品價格等數(shù)百維數(shù)據(jù)實現(xiàn)小時級價格調(diào)整,試點門店毛利率提升5個百分點,滯銷品周轉(zhuǎn)率提高2倍。

在智慧農(nóng)業(yè)領(lǐng)域,溫室種植環(huán)境控制智能體通過學(xué)習(xí)歷史氣候數(shù)據(jù)與作物生長曲線,自動調(diào)節(jié)溫濕度、光照參數(shù),使草莓產(chǎn)量提升20%,同時降低能耗15%。

多領(lǐng)域落地成果引發(fā)專家廣泛關(guān)注。中國工程院院士、浙江大學(xué)農(nóng)業(yè)生命環(huán)境學(xué)部常務(wù)副主任喻景權(quán)表示,算力與AI是激活農(nóng)業(yè)生態(tài)價值的關(guān)鍵,AI專家智能體有望是踐行“兩山”理論的數(shù)字化解法。

針對強化學(xué)習(xí)“樣本使用率低、現(xiàn)實場景探索難”等行業(yè)挑戰(zhàn),繆旭公布了九章云極的攻堅方案。他介紹,采用基于回放的離線PPO強化學(xué)習(xí)方法,能夠?qū)崿F(xiàn)5倍訓(xùn)練速度提升;同時,可以與高校、科研院所合作研發(fā)世界模型,為智能體提供虛擬環(huán)境進行探索,避免現(xiàn)實世界中的高風(fēng)險行為。

繆旭強調(diào),此次強化學(xué)習(xí)云的升級,是AI基礎(chǔ)設(shè)施向“智能體原生云”轉(zhuǎn)型的一次重要探索,也是九章云極在先進普惠智算技術(shù)的進一步深耕。依托Agentic RL核心技術(shù)與全棧式服務(wù)能力,既降低企業(yè)AI落地的技術(shù)與成本門檻,又能推動人工智能從通用能力走向?qū)I(yè)深耕,促進群體智能的加速形成,賦能千行百業(yè)的智能化轉(zhuǎn)型。

編 輯:T01
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請在相關(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
推薦閱讀
  • AI營銷不攻自破,沒人關(guān)心AI PC里的AI

    近兩年來,無論是電腦、手機,還是任何商業(yè)服務(wù),可謂言必稱AI。其中電腦產(chǎn)品在宣傳之中,還要在PC之前再冠以AI二字,以凸顯其不同于以往的身份,為AI在胸膛中央的事做證。然而,就在剛剛落..[詳細]

  • 智能眼鏡扎堆亮相CES 中國廠商解鎖“物理AI”新可能

    曾經(jīng),CES的核心焦點始終圍繞手機、電視、筆記本等傳統(tǒng)消費電子品類,但隨著人工智能技術(shù)的落地深化,智能眼鏡成功接棒成為新的主角。[詳細]

  • 昇思MindSpore:解鎖超節(jié)點時代的AI框架新范式

    近年來,各行各業(yè)逐漸開始全面擁抱AI,各國對AI算力基礎(chǔ)設(shè)施的投資也持續(xù)擴張,AI框架作為AI技術(shù)及其應(yīng)用的重要基石,迎來了關(guān)鍵的發(fā)展機遇。為超節(jié)點而生的昇思MindSpore AI框架以其突出的..[詳細]

  • 具身智能的大規(guī)模落地仍處于早期階段

    近兩年,具身智能無疑是最熱門的賽道之一。據(jù)中國信息通信研究院副總工程師許志遠介紹,當(dāng)前,具身智能已經(jīng)取得認(rèn)知智能與物理智能的雙線突破,但模型路線、數(shù)據(jù)范式以及最佳機器人形態(tài)仍未..[詳細]

  • 潮涌亨通,智領(lǐng)未來:交上輝煌答卷在2026續(xù)寫奮進華章

    2025年是“十四五”收官與“十五五”蓄力的關(guān)鍵節(jié)點。在這一年里,國內(nèi)新型工業(yè)化加速推進,“AI+制造”成為產(chǎn)業(yè)升級核心引擎;全球AI技術(shù)爆發(fā)式增長,海洋及清潔能源轉(zhuǎn)型浪潮交織,整個國際..[詳細]

精彩視頻

精彩專題

關(guān)于我們廣告報價聯(lián)系我們隱私聲明本站地圖

CCTIME飛象網(wǎng) CopyRight © 2007-2025 By CCTIME.COM

京ICP備08004280號-1 電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號

公司名稱: 北京飛象互動文化傳媒有限公司

未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像