近日,火山引擎提供的豆包大語音模型成為首家“引領(lǐng)級”通過中國信通院語音大模型能力評估的產(chǎn)品,經(jīng)相關(guān)標(biāo)準(zhǔn)和評估測試顯示,豆包大語音模型在語音合成、復(fù)刻、識別分析等方面能力突出,處于行業(yè)領(lǐng)先地位。
近年來,隨著人工智能技術(shù)的快速發(fā)展,語音大模型作為語音理解和生成的關(guān)鍵技術(shù),正不斷賦能各行業(yè)的智能化轉(zhuǎn)型。在此背景下,中國信通院制定了《語音大模型技術(shù)能力要求》標(biāo)準(zhǔn)旨在為行業(yè)提供技術(shù)參考和規(guī)范,提升語音大模型技術(shù)能力的可操作性和標(biāo)準(zhǔn)化水平。據(jù)介紹,標(biāo)準(zhǔn)共包含兩大評估板塊的4個方面
能聽:
○ 精準(zhǔn)的語音識別能力(ASR):具備高準(zhǔn)確率,能夠精準(zhǔn)識別不同場景語音輸入,包括噪聲環(huán)境中的語音、方言和口音。
○ 多語種與跨語言處理:支持多語種語音識別,適配全球化應(yīng)用場景。
○ 感知語境變化:能區(qū)分語氣、情感變化,捕捉說話者意圖和語義。
會說:
○ 自然語音合成(TTS),實現(xiàn)接近真人語音的合成,支持情感化表達(dá)和多種語言發(fā)聲。
○ 多樣化語音風(fēng)格:支持多種音色、語速和語調(diào)的自定義輸出,滿足個性化需求。
○ 實時生成能力:毫秒級響應(yīng)時間,支持實時語音交互。
夠懂:
○ 深度語義理解:能準(zhǔn)確理解語音輸入中的復(fù)雜語義、上下文關(guān)聯(lián)和用戶意圖。
○ 多任務(wù)協(xié)同處理:能同時完成語音識別、情感分析、語言翻譯等多任務(wù)。
○ 個性化適配:根據(jù)用戶歷史數(shù)據(jù)調(diào)整語音交互方式,實現(xiàn)個性化推薦或?qū)υ拑?nèi)容定制。
好用:
○ 廣泛的應(yīng)用場景支持:從個人助手到行業(yè)解決方案,覆蓋家居、醫(yī)療、教育、金融等領(lǐng)域。
○ 輕量化與邊緣部署:優(yōu)化模型適配終端設(shè)備,在低算力環(huán)境中實現(xiàn)高性能。
○ 高效開發(fā)與標(biāo)準(zhǔn)化接口:支持快速集成和跨平臺應(yīng)用,降低開發(fā)與部署成本。
據(jù)了解在本次評估中,豆包語音大模型全部滿足23項功能評估、在4項性能評估得分表現(xiàn)優(yōu)秀,支持20余項服務(wù)能力,成為國內(nèi)首家引領(lǐng)級通過評估的產(chǎn)品,具備優(yōu)異的語音合成、復(fù)刻、識別、分析等能力。