首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|元宇宙|博客|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|芯片報告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 頭條資訊 >> 正文

誰是中國版Sora

2024年5月7日 07:21  北京商報  作 者:楊月涵

“面對Sora帶來的挑戰(zhàn),不妨讓子彈再飛一會兒。”兩個多月前,OpenAI又一記深水炸彈,以文生視頻大模型Sora引爆全球,當時談及國內(nèi)外文生視頻大模型的差距,伽利略資本合伙人鄭譞作出了這樣一句評價。兩個多月后,“預言”應驗。先是生數(shù)科技聯(lián)合清華大學發(fā)布了視頻大模型Vidu,一度被外界形容為中國首個Sora級視頻大模型,近日,亦有媒體報道稱,智譜AI也正研發(fā)對標Sora的國產(chǎn)文生視頻模型,最快年內(nèi)發(fā)布。隨著企業(yè)競相入局,國內(nèi)文生視頻大模型明顯進入加速階段。但就像鄭譞說的,Sora的出現(xiàn)并非技術(shù)上的突破,而在工程方面,國產(chǎn)大模型的差距其實并沒有多遠,“從本質(zhì)上講,場景或許是比工程突破更值得思考的一件事”。

Sora之后

近日,有媒體報道稱,智譜AI正在研發(fā)對標Sora的高質(zhì)量文生視頻模型,預計最快年內(nèi)發(fā)布。對此,北京商報記者聯(lián)系了智譜AI,對方表示該消息非官方信源消息,沒有其他信息可以提供。

公開資料顯示,智譜AI由清華大學計算機系技術(shù)成果轉(zhuǎn)化而來,也是國內(nèi)最早研發(fā)大模型的企業(yè)之一。今年1月,智譜AI發(fā)布新一代基座大模型GLM-4,智譜AI CEO張鵬曾介紹稱,GLM-4的整體性能相比上一代大幅提升,逼近GPT-4。

在此之前,國產(chǎn)文生視頻大模型已經(jīng)掀起過一波浪潮。4月27日的2024中關村(4.440, 0.11, 2.54%)論壇年會上,清華大學聯(lián)合生數(shù)科技正式發(fā)布中國首個長時長、高一致性、高動態(tài)性視頻大模型Vidu,引發(fā)熱議。

據(jù)介紹,Vidu是自Sora發(fā)布之后全球率先取得重大突破的視頻大模型,性能全面對標國際頂尖水平。

“Vidu是全棧自主創(chuàng)新的最新成果,在多個維度上實現(xiàn)了技術(shù)突破,包括可以模擬真實物理世界、具有想象力、可以理解多鏡頭語言而不再是簡單的鏡頭推拉、可以一鍵生成長達16秒的視頻、人物場景時間保持高度一致性、可以理解中國元素!碑敃r,清華大學教授、生數(shù)科技首席科學家朱軍介紹稱。

對于外界最關心的,Vidu和Sora的對比,朱軍也在現(xiàn)場做了展示,比如Sora在視頻生成過程中丟掉了“旋轉(zhuǎn)”這一關鍵詞,但Vidu則能較好地抓住這一內(nèi)容,實現(xiàn)視頻視角的絲滑“旋轉(zhuǎn)”。

不過也有分析認為,Vidu的16秒與Sora的一分鐘仍存在算力和工程方面的巨大差距,對此,有業(yè)內(nèi)人士對北京商報記者提到,Vidu的架構(gòu)本身足夠支持更長時間的視頻生成,生數(shù)科技也介紹稱,Vidu正在加速迭代提升中。

值得一提的是,智譜AI與生數(shù)科技均出自“清華一脈”。此外光年之外、月之暗面、百川智能、面壁智能等均有清華學子的影子。有媒體引用業(yè)內(nèi)人士的分析稱,清華系大模型公司的格局是以智譜AI為中心,布局人工智能上下游。今年3月,生數(shù)科技宣布完成新一輪數(shù)億元融資,智譜AI就是跟投者之一。

產(chǎn)品化才是關鍵

事實上,自Sora發(fā)布之后,國內(nèi)文生視頻領域便已開始升溫。例如Sora發(fā)布的2月,清華大學便公布了一項文生視頻專利。同月,中國首部文生視頻AI動畫片《千秋詩頌》播出。而在Vidu發(fā)布的第二天,國內(nèi)首個音視頻多媒體大模型萬興“天幕”正式公測。

據(jù)Gartner研究預測,到2030年,90%的數(shù)字內(nèi)容都將是AI生成。預計2032年,全球AIGC市場規(guī)模將由2022年的108億美元增加至1181億美元。

經(jīng)濟學家、新金融專家余豐慧對北京商報記者分析稱,文生視頻的成功構(gòu)建意味著AI模型能夠處理更高維度、更復雜的數(shù)據(jù),并進行創(chuàng)造性表達,這表明模型正朝著理解和創(chuàng)造世界的不同層面演進,這與AGI所追求的認知和決策能力更加接近。

“Sora這樣的文生視頻技術(shù)一旦成熟,理論上有可能顛覆傳媒業(yè)、影視制作、游戲開發(fā)、虛擬現(xiàn)實、廣告創(chuàng)意、教育等多個行業(yè)。它能夠在短時間內(nèi)根據(jù)用戶需求自動生成高質(zhì)量視頻內(nèi)容,大大降低創(chuàng)作成本,提高生產(chǎn)效率!庇嘭S慧補充稱。

在接受北京商報記者采訪時,鄭譞提到,文生視頻可以簡單類比成分鏡腳本,利用文本信息生成關鍵幀,以幀與幀的畫面聯(lián)合形成連續(xù)視頻。在這個過程中,更多屬于工程上的創(chuàng)新,而非技術(shù)層面的顛覆性突破,這也意味著國內(nèi)外大模型的差距不會太長,整體時間差距可以保持在半年之內(nèi)。

也是因此,比起工程上的突破,鄭譞更關注的其實是應用場景。據(jù)他觀察,AI短片在行業(yè)內(nèi)的“單子”還非常小,更像是實驗性質(zhì)的嘗試,比之成熟的商業(yè)制作“大片”還有很大差距,“基本可以忽略不計”。

更缺的是推理算力

企業(yè)競相入局文生視頻大模型,也引發(fā)出了另一個關鍵問題——算力。早在Sora發(fā)布后不久,360集團創(chuàng)始人周鴻祎就曾公開提到,Sora的技術(shù)路線如果被開源,國內(nèi)將能很快趕上,但在追趕Sora時,算力有可能成為門檻。

中信證券(19.210, 0.20, 1.05%)曾簡單估算,一個60幀的視頻(約6—8秒)需要約6萬個Patches,如果去噪步數(shù)是20的話,相當于要生成120萬個Tokens。同時考慮到擴散模型在實際使用時往往需要多次生成的特點,實際計算量會遠超120萬個Tokens。

天使投資人、資深人工智能專家郭濤對北京商報記者分析稱,大模型的訓練需要處理大量的數(shù)據(jù)和復雜的計算。如果沒有足夠的算力,訓練這樣的模型將非常困難。其次,目前全球的算力資源是有限的,而且大部分集中在一些大型科技公司手中,這就使得其他公司或者研究機構(gòu)在獲取足夠的算力資源方面面臨挑戰(zhàn)。

不久前,月之暗面的Kimi智能助手走紅成為“小爆款”,因使用人數(shù)激增,Kimi App和小程序一度出現(xiàn)無法正常使用的情況。當時中信建投(22.730, 0.40, 1.79%)層發(fā)布研報稱,隨著Kimi用戶數(shù)持續(xù)提升,已經(jīng)出現(xiàn)短暫算力支持不足的情況,考慮后續(xù)模型訓練和推理需求,預期算力需求會進一步提升,帶動算力需求落地。

“推理算力很可能會是創(chuàng)投圈的下一個機會!编嵶X總結(jié)說。

編 輯:路金娣
聲明:刊載本文目的在于傳播更多行業(yè)信息,本站只提供參考并不構(gòu)成任何投資及應用建議。如網(wǎng)站內(nèi)容涉及作品版權(quán)和其它問題,請在30日內(nèi)與本網(wǎng)聯(lián)系,我們將在第一時間刪除內(nèi)容。本站聯(lián)系電話為86-010-87765777,郵件后綴為#cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內(nèi)容核實”、“商務聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
相關新聞              
 
人物
聞庫:全球6G發(fā)展需要統(tǒng)一的思路、方向和目標
精彩專題
CES 2024國際消費電子展
2023年信息通信產(chǎn)業(yè)盤點暨頒獎禮
飛象網(wǎng)2023年手機評選
第24屆中國國際光電博覽會
CCTIME推薦
關于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業(yè)務經(jīng)營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復制、鏡像