首頁|必讀|視頻|專訪|運(yùn)營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁 >> 飛象原創(chuàng) >> 正文

中國聯(lián)通業(yè)界首創(chuàng)大模型能力邊界量化基準(zhǔn)

2024年12月26日 09:42  CCTIME飛象網(wǎng)  

飛象網(wǎng)訊 (一飛/文)12月21日,OpenAI 發(fā)布了具有超強(qiáng)推理能力的大模型o3,引起了業(yè)內(nèi)對大模型推理能力的廣泛討論和深入研究。o3的發(fā)布也帶來了三個(gè)引人深思的問題:市面上主流大模型的推理能力究竟如何?在真實(shí)應(yīng)用場景中,是否總是需要具有極強(qiáng)推理能力的模型?在實(shí)際應(yīng)用中,如何根據(jù)應(yīng)用需求選擇合適參數(shù)量的大模型而避免“用大炮打蚊子”,以獲得最高性價(jià)。

中國聯(lián)通借鑒動(dòng)物智能演化規(guī)律,結(jié)合大模型實(shí)際落地應(yīng)用實(shí)踐,在業(yè)界首次提出大模型能力邊界量化基準(zhǔn),定量分析主流語言大模型能力邊界,詳細(xì)刻畫模型參數(shù)量、模型能力與應(yīng)用場景之間的關(guān)系,為語言大模型的應(yīng)用選型提供理論和經(jīng)驗(yàn)指導(dǎo),將有助于降低語言大模型應(yīng)用門檻,促進(jìn)大模型普惠化。相關(guān)研究成果以<What is the Best Model? Application-Driven Evaluation for Large Language Models>為題發(fā)表在自然語言處理權(quán)威會(huì)議NLPCC2024上,相應(yīng)的評估基準(zhǔn)已向業(yè)界開源,獲得業(yè)界廣泛認(rèn)可。

論文鏈接:https://arxiv.org/abs/2406.10307

評估基準(zhǔn):https://github.com/UnicomAI/UnicomBenchmark/tree/main/A-Eval

借鑒動(dòng)物智能演化規(guī)律

一般來說,動(dòng)物的腦神經(jīng)元越多,腦容量越大,智力水平就越高。另外,不同智力水平的動(dòng)物擅長的任務(wù)種類和難度也各不相同,即使小如烏鴉的大腦,也可以完成“烏鴉喝水”這樣的任務(wù)。

動(dòng)物智能演化規(guī)律

相似地,在語言大模型中,擴(kuò)展法則指出模型參數(shù)量越大,模型能力越強(qiáng),相應(yīng)的算法消耗和應(yīng)用成本也越高。然而這樣的定性分析是不夠的,大模型能力邊界定量刻畫的缺乏,導(dǎo)致在實(shí)際應(yīng)用中經(jīng)常出現(xiàn)“高射炮打蚊子”的情況。因此對大模型能力邊界的定量刻畫是必要且緊迫的。

構(gòu)建大模型能力評估基準(zhǔn)

中國聯(lián)通研究團(tuán)隊(duì)從實(shí)際應(yīng)用場景維度出發(fā),對語言大模型主要能力進(jìn)行歸納、梳理和總結(jié),建立了應(yīng)用驅(qū)動(dòng)的大語言模型能力評估基準(zhǔn)。該評估基準(zhǔn)包括文本生成、理解、關(guān)鍵信息抽取、邏輯推理、任務(wù)規(guī)劃等5大類能力,又細(xì)分為27類子能力。

語言大模型主要能力

針對27類子能力,中國聯(lián)通研究團(tuán)隊(duì)構(gòu)建了相應(yīng)的評測任務(wù)和由易、中、難三個(gè)難度等級的678個(gè)問答對構(gòu)成的評估數(shù)據(jù)集。為避免數(shù)據(jù)泄露問題,所有數(shù)據(jù)均由專家團(tuán)隊(duì)人工編寫。

應(yīng)用驅(qū)動(dòng)的語言大模型能力評估數(shù)據(jù)集

量化主流大模型能力邊界

團(tuán)隊(duì)設(shè)計(jì)了專家評估和基于大模型的自動(dòng)化評估方法,對同一家族8個(gè)不同規(guī)模的模型(0.5B, 1.8B, 4B, 7B, 14B, 32B, 72B, 110B)進(jìn)行測試和評估,避免模型架構(gòu)、訓(xùn)練數(shù)據(jù)等非模型參數(shù)量因素對評估結(jié)果產(chǎn)生干擾,得到了不同參數(shù)量模型在各種任務(wù)上的可靠的評估結(jié)果。從下圖的評測結(jié)果可以看出,不同參數(shù)量模型能力不同,模型參數(shù)量越大,模型能力越強(qiáng),對于復(fù)雜任務(wù)需要使用大參數(shù)量模型。

不同參數(shù)量模型在各類任務(wù)中的準(zhǔn)確率

依據(jù)能力要求確定模型參數(shù)量

根據(jù)語言大模型能力邊界測評結(jié)果,團(tuán)隊(duì)提出了一種簡單可行的模型選型方法,指導(dǎo)模型落地應(yīng)用時(shí)的參數(shù)選型。總的來說,針對不同任務(wù),任務(wù)難度越高要求參數(shù)越大;針對同一任務(wù),參數(shù)越大模型性能越好。具體地,可依據(jù)某項(xiàng)任務(wù)對模型性能的底線要求來選擇相應(yīng)參數(shù)的規(guī)模,以圖中任務(wù)為例:在用戶需求準(zhǔn)確率為80%的前提下,對于拼寫錯(cuò)誤校正任務(wù),14B以上模型可獲90分以上;對于邏輯錯(cuò)誤檢測任務(wù),110B以上模型可達(dá)90分以上;如果同時(shí)應(yīng)用多個(gè)任務(wù),先為每個(gè)任務(wù)選擇合適的模型,再選擇其中參數(shù)量最大的模型即可。選型過程中不需要用戶對大模型有深入了解,這將降低用戶選擇使用大模型的門檻,促進(jìn)大模型普惠化。

模型參數(shù)量選擇方法示例

探索設(shè)計(jì)模型選型使用“說明書”

在元景大模型應(yīng)用落地中,中國聯(lián)通基于上述評估基準(zhǔn),打造評估工具,量化1B、7B、13B、34B和70B等元景基礎(chǔ)大模型的能力邊界,并分別將其用于違規(guī)短信分類、投訴工單分類、客服助手、漁業(yè)知識問答、元景App問答等場景,提煉“模型參數(shù)量-模型能力-應(yīng)用場景”關(guān)聯(lián)關(guān)系(如下圖),作為大模型使用“說明書”,集成到元景MaaS平臺(tái),為開發(fā)者提供選模型指引。

模型參數(shù)量-能力-場景的對應(yīng)關(guān)系圖

接下來,中國聯(lián)通將繼續(xù)推進(jìn)模型邊界量化機(jī)理研究,擴(kuò)展和深化“模型參數(shù)量-模型能力-應(yīng)用場景”關(guān)聯(lián)關(guān)系,協(xié)同業(yè)界持續(xù)擴(kuò)展模型能力邊界,完善和增強(qiáng)大模型的“記憶-推理-規(guī)劃-創(chuàng)造-成長-價(jià)值觀”能力鏈條,打造自主可控、模態(tài)豐富、性能先進(jìn)、高性價(jià)比、安全可信的基礎(chǔ)大模型,支撐千行百業(yè)場景應(yīng)用,加速大模型普惠化。

編 輯:魏德齡
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
中國移動(dòng)副總經(jīng)理張冬:5G揚(yáng)帆開新篇,數(shù)智遠(yuǎn)航啟新程
精彩專題
2024通信業(yè)年終盤點(diǎn)
2024數(shù)字科技生態(tài)大會(huì)
2024年度中國光電纜優(yōu)質(zhì)供應(yīng)商評選活動(dòng)
2024全球6G發(fā)展大會(huì)
CCTIME推薦
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像