首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|元宇宙|博客|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 人工智能 >> 正文

阿里通義Qwen2成斯坦福大模型榜單最強開源模型

2024年6月20日 15:37  環(huán)球網(wǎng)科技  

6月20日消息,斯坦福大學的大模型測評榜單HELM MMLU發(fā)布最新結(jié)果,斯坦福大學基礎(chǔ)模型研究中心主任Percy Liang發(fā)文表示,阿里通義千問Qwen2-72B模型成為排名最高的開源大模型,性能超越Llama3-70B模型。

MMLU(Massive Multitask Language Understanding,大規(guī)模多任務語言理解)是業(yè)界最有影響力的大模型測評基準之一,涵蓋了基礎(chǔ)數(shù)學、計算機科學、法律、歷史等57項任務,用以測試大模型的世界知識和問題解決能力。但在現(xiàn)實測評中,不同參評模型的測評結(jié)果有時缺乏一致性、可比性,原因包括使用非標準提示詞技術(shù)、沒有統(tǒng)一采用開源評價框架等等。

斯坦福大學基礎(chǔ)模型研究中心(CRFM,Center for Research on Foundation Models)提出的基礎(chǔ)模型評估框架HELM(A holistic framework for evaluating foundation models),旨在創(chuàng)造一種透明、可復現(xiàn)的評估方法。該方法基于HELM框架,對不同模型在MMLU上的評估結(jié)果進行標準化和透明化處理,從而克服現(xiàn)有MMLU評估中存在的問題。比如,針對所有參評模型,都采用相同的提示詞;針對每項測試主題,都給模型提供同樣的5個示例進行情境學習,等等。

日前,斯坦福大學基礎(chǔ)模型研究中心主任Percy Liang在社交平臺發(fā)布了HELM MMLU最新榜單,阿里巴巴的通義千問開源模型Qwen2-72B排名第5,僅次于Claude 3 Opus、GPT-4o、Gemini 1.5 pro、GPT-4,是排名第一的開源大模型,也是排名最高的中國大模型。

據(jù)悉,通義千問Qwen2于6月初開源,包含5個尺寸的預訓練和指令微調(diào)模型,目前Qwen系列模型下載量已經(jīng)突破1600萬。

編 輯:章芳
聲明:刊載本文目的在于傳播更多行業(yè)信息,本站只提供參考并不構(gòu)成任何投資及應用建議。如網(wǎng)站內(nèi)容涉及作品版權(quán)和其它問題,請在30日內(nèi)與本網(wǎng)聯(lián)系,我們將在第一時間刪除內(nèi)容。本站聯(lián)系電話為86-010-87765777,郵件后綴為#cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內(nèi)容核實”、“商務聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
鄔賀銓:大模型下沉到手機 將激活萬億元規(guī)模手機產(chǎn)業(yè)
精彩專題
CES 2024國際消費電子展
2023年信息通信產(chǎn)業(yè)盤點暨頒獎禮
飛象網(wǎng)2023年手機評選
第24屆中國國際光電博覽會
CCTIME推薦
關(guān)于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業(yè)務經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復制、鏡像