不約而同,同日出招。兩個AI巨頭在同一天各自放出了自己的AI新核武器,OpenAI的文生視頻模型Sora又一次贏得了滿堂彩。Sora的驚艷亮相,不僅碾壓了諸多AGI視頻同行,更有可能改變電影電視廣告游戲行業(yè)的未來游戲規(guī)則。
谷歌新模式性能完勝
周四,谷歌突然發(fā)布了新一代多模態(tài)大模型Gemini 1.5 Pro,在與OpenAI的大模型之戰(zhàn)中加速超越。這是業(yè)界迄今最強的大語言模型,最高可支持10,000K Token上下文,直接將性能提升到了百萬級別,在性能上完全秒殺了OpenAI的GPT-4 Turbo。
百萬級別Token意味著什么?谷歌AI項目負責人杰夫·迪恩(Jeff Dean)解釋說,在Gemini 1.5 Pro百萬級別上下文窗口支持能力下,用戶可以完成復(fù)雜的內(nèi)容交互,輕松解析整本圖書、電影、播客,理解非常長的文檔,甚至是數(shù)百個文件數(shù)十萬行的代碼庫。
Gemini 1.5 Pro的發(fā)布,意味著谷歌在和OpenAI的軍備競賽中占據(jù)了強大的性能優(yōu)勢。相比之下,OpenAI的GPT-4 Turbo只能處理128k Token,而且近期更是出現(xiàn)了性能下滑的不利狀況,直到上個月發(fā)布更新之后才有所改善。
然而,OpenAI并沒有讓谷歌獨美。就在同一天,他們發(fā)布了文本生成視頻的AI模型Sora,只需文本就能自動生成視頻;繼文本模型ChatGPT和圖片模型Dall-E之后,OpenAI又開始顛覆視頻領(lǐng)域。
相比谷歌Gemini 1.5 Pro基于數(shù)據(jù)性能的硬實力優(yōu)勢,Sora基于視覺美學(xué)的驚艷表現(xiàn),顯然更容易讓人印象深刻,迅速成為了社交網(wǎng)站上的熱點。
以假亂真細節(jié)驚艷
Sora到底驚艷在哪里?OpenAI展示了多段Sora制作的視頻內(nèi)容,光是這些片段,就已經(jīng)足夠讓人大跌眼鏡。OpenAI在官方博客中寫道,Sora不僅可以理解用戶的需求,還知道這些事物在現(xiàn)實世界如何存在。
只需要輸入一段文本,Sora就能自動生成最長一分鐘的高清視頻。令人難以置信的是,Sora不僅可以準確把握用戶文本中的復(fù)雜意思,并且還能分拆出不同的元素,將其轉(zhuǎn)換為有具體創(chuàng)意構(gòu)思的視頻內(nèi)容,看起來就像是專業(yè)導(dǎo)演、攝像和剪輯的作品。
一位戴著墨鏡、穿著皮衣的時尚女子走在雨后夜晚的東京市區(qū)街道上,抹了鮮艷唇彩的唇角微微翹起,即便帶著墨鏡也能看到她的微笑,地面的積水映出了她的身影和燈紅酒綠的霓虹燈;熱鬧非凡的唐人街正在進行舞龍表演,熙熙攘攘的人群目光都聚焦在躍動的彩龍身上,整個環(huán)境的喜慶氛圍仿佛令人身臨其境。
與此前的AI視頻存在明顯塑料感不同,此次Sora制作的視頻在逼真度和藝術(shù)感方面有著顯著差別:微微卷曲的人物頭發(fā),女人臉上的黑痣粉刺,地面積水倒映的霓虹光影,街頭商販擺賣的諸多食品,天空飄落的櫻花細雪,細節(jié)的精細度幾乎已經(jīng)做到了以假亂真。
更令人驚訝的是,Sora視頻在構(gòu)圖、色彩、創(chuàng)意和運鏡方面,都呈現(xiàn)出明顯的電影風格,無論是一鏡到底還是多機位都可以無縫切換,甚至還有“演員”的表情神態(tài),這是此前的文生視頻產(chǎn)品所不具備的。OpenAI一出手就將整個AI視頻行業(yè)提升了一個級別。
雖然Sora制作的視頻還沒有到完美的地步,仔細看還能看出“穿幫”之處,人物吃過的餅干甚至?xí)旰脽o損,但在影像畫質(zhì)上已經(jīng)較此前的AI視頻有了質(zhì)的飛躍,甚至有了電影的質(zhì)感。而且,僅僅根據(jù)一段抽象的文字就能制作類電影的多鏡頭視頻,這種語義理解和鏡頭運用能力更是接近了人類導(dǎo)演、攝像與剪輯的水平。顯然,視頻領(lǐng)域的ChatGPT時刻已經(jīng)到來。
AI進化速度令人震驚
Sora發(fā)布之后,網(wǎng)絡(luò)一片驚嘆,幾乎搶盡了Gemini的風頭。AI的進化速度實在令人震驚。要知道,此時距離OpenAI推出ChatGPT,開啟生成式AI時代,僅僅過去了14個月時間。直到去年,我們才剛剛熟悉文本生成圖片的產(chǎn)品,而僅僅半年前,MidJourney創(chuàng)作的AI圖片里還會出現(xiàn)六指人物。而現(xiàn)在,Sora的視頻就已經(jīng)讓所有人開始感受到現(xiàn)實和虛擬的界限模糊。
雖然OpenAI的GPT-4 Turbo此前出現(xiàn)了性能下滑和速度變慢的狀況,令人擔心生成式AI的增長遭遇了瓶頸;但Sora的發(fā)布無疑打消了所有人的擔憂。云計算公司Box創(chuàng)始人兼CEO列維(Aaron Levie)在Sora發(fā)布之后感慨說,“如果有人還擔心AI進化速度會變慢的話,我們又一次看到了完全相反的典范!
目前Sora只面向邀請的制作者和安全專家開放測試,發(fā)現(xiàn)和解決可能的安全問題,還沒有宣布正式的公測時間表。畢竟在虛假信息充斥的互聯(lián)網(wǎng),DeepFake的道德問題也已經(jīng)成為了關(guān)注焦點,像Sora這樣以假亂真的視頻一旦被濫用,可能會引發(fā)災(zāi)難性后果。
在發(fā)布Sora的幾乎同一時間,OpenAI還完成了一項要約售股交易,并不是融資用于公司用途,而是允許員工向以Thrive Capital牽頭的風投機構(gòu)出售現(xiàn)有股份套現(xiàn)。值得一提的是,作為OpenAI董事會成員,奧特曼自己并不持有公司股票,估值飆升并不能給他帶來巨額財富。
此次交易對OpenAI的整體估值達到了800億美元,較之去年年初的300億美元飆升了兩倍多。按照投融資市場調(diào)研公司CB Insights統(tǒng)計,OpenAI已經(jīng)成為全球估值最高的創(chuàng)業(yè)公司之一,僅次于字節(jié)跳動和SpaceX。
實際上,此次交易本應(yīng)在去年11月完成,只是因為奧特曼與董事會的沖突風波才被迫擱置。隨著奧特曼重新回到OpenAI CEO職位,投資者再次給這家AI巨頭投出了信任票。顯然,在Sora正式發(fā)布之后,OpenAI的估值還會進一步飆升。
巨頭出手碾壓AGI同行
那么,令人驚艷的文本生視頻Sora究竟會帶來哪些沖擊?
AGI視頻同行無疑是遭受最直接沖擊的。Sora發(fā)布之后,AI視頻創(chuàng)業(yè)公司Runway CEO瓦倫祖拉(Cristóbal Valenzuela)在X平臺(此前的推特)上簡單發(fā)布了兩個字,“Game On.”(競爭開始了)。幾個月前,Runway剛剛發(fā)布了Gen-2視頻模型。而另一家AI視頻公司Stability的CEO莫斯塔克(Emad Mostaque)則直接感慨,“奧特曼真是個魔術(shù)師!
Runway創(chuàng)辦已有五年時間,在AI視頻領(lǐng)域占據(jù)著先發(fā)優(yōu)勢,已經(jīng)得到了好萊塢主流片場的使用。去年拿到七項奧斯卡大獎的年度影片《瞬息全宇宙》就使用了Runway來制作AI視頻。在《瞬息全宇宙》大獲成功之后,Runway新一輪融資估值也水漲船高,達到了15億美元,是一年之前估值的三倍。
文生視頻領(lǐng)域是目前最熱的創(chuàng)業(yè)領(lǐng)域。過去幾個月時間,隨著生成式AI熱潮涌動,也涌現(xiàn)出了不少文本生視頻和圖片生視頻的創(chuàng)業(yè)公司。A16z的AI投資合伙人摩爾(Justin Moore)列出了他所跟蹤的20多家文生視頻創(chuàng)業(yè)團隊,其中不乏Pika、Zeroscope這樣一度引發(fā)網(wǎng)絡(luò)驚嘆的創(chuàng)業(yè)新貴。
去年年底,斯坦福華人畢業(yè)生創(chuàng)辦的Pika視頻一度引發(fā)了中美互聯(lián)網(wǎng)的驚嘆。得益于AI視頻的驚艷表現(xiàn),這家僅有四人的創(chuàng)業(yè)公司,在不到半年時間就完成了超過5500萬美元的三輪融資,估值飆升到了2.5億美元。
但現(xiàn)在,AI巨頭OpenAI直接拋出了Sora。無論是視頻時長,還是畫面精細度,還是細節(jié)完整性,或是多鏡頭拍攝,Sora都遠遠超越了這些小創(chuàng)業(yè)公司的視頻,用碾壓來形容也并不為過。雖然AI視頻領(lǐng)域還有著巨大的提升和增長空間,但這些小公司的未來是否有能力與OpenAI競爭依然是個巨大的疑問。
左右好萊塢勞資談判
不過,Sora影響的不僅是其他AGI視頻創(chuàng)業(yè)公司的生存空間,更會改變整個好萊塢以及電影、電視、廣告、游戲行業(yè)的未來游戲規(guī)則。
好萊塢使用AI制作圖片和視頻,并不是什么新鮮事,從CG(電腦動畫)、VR到AI,影視娛樂行業(yè)一直是高新技術(shù)的最先采用者。然而,與其他技術(shù)不同,AI工具始終是扎在好萊塢從業(yè)人員心中的一根刺。
除了《瞬息全宇宙》使用了Runway的AI視頻工具,去年21世紀福克斯已經(jīng)與IBM沃森合作,用AI工具為關(guān)于AI主題的恐怖片《摩根》制作預(yù)告片;迪士尼旗下的漫威更完全用AI制作了《秘密入侵》的開頭動畫。
當時正值好萊塢演員和編劇工會大罷工期間。而生成式AI在影視行業(yè)的應(yīng)用也是雙方的爭議焦點之一。就在雙方談判的過程中,演員編劇們得知迪士尼漫威新一季的《秘密入侵》已經(jīng)完全使用AI技術(shù)打造開場場景。這一消息讓雙方的談判再次擱淺。
為什么影視行業(yè)使用AI工具引發(fā)這么多的爭議?業(yè)內(nèi)人士主要是擔心制片方使用現(xiàn)有素材進行AI訓(xùn)練,未來頻繁使用AI工具生成內(nèi)容,這不僅侵犯到了創(chuàng)作者已有作品的版權(quán),沒有給他們足夠的回報,更會影響到創(chuàng)作者未來的工作機會和空間。
雖然去年編劇和演員們不惜讓行業(yè)停擺和自己失業(yè),換來了制片方們的暫時讓步,對AI工具的使用制定更多的規(guī)范。但三年后的下一次勞資談判,面對性能必然大升級的AI,演員編劇們的處境可能會更加艱難。
電影電視TikTok化
隨著文生視頻模型Sora的驚艷亮相,或許整個好萊塢從業(yè)人員都會面臨著一個巨大的疑問:按照AI的指數(shù)級進化速度,或許不需要再等待多久,AI就可以生成一部完整劇情的短片甚至電影,從劇本到拍攝到表演到后期都可以完全搞定,那么好萊塢的未來會變成什么樣子?
拍攝《當她醒來》恐怖電影的好萊塢導(dǎo)演戴夫·克拉克(Dave Clark)已經(jīng)在使用AI工具制作電影。在他看來,Sora等AI技術(shù)帶來的并不是威脅,創(chuàng)作者需要去擁抱AI技術(shù),打造此前無法實現(xiàn)或是想象的內(nèi)容。“這是改變游戲規(guī)則的技術(shù)。你不應(yīng)該去擔心自己的工作,而應(yīng)該擔心是誰在使用這些工具!
行業(yè)調(diào)查公司CVL Economics上個月發(fā)布的一項對300位好萊塢行業(yè)領(lǐng)袖的調(diào)查顯示,擔憂情緒彌漫在整個好萊塢。36%的受訪者表示生成式AI已經(jīng)減少了他們公司的日常工作技能需求,72%的受訪公司都是生成式AI工具的最早采用者。
更為殘酷的現(xiàn)實是,75%的受訪者承認,生成式AI(工具、軟件、模型)已經(jīng)促使他們業(yè)務(wù)部門削減與合并工作崗位。這些掌控著好萊塢行業(yè)秩序的人們預(yù)計,未來三年好萊塢總計會有超過20萬人的工作崗位會遭受AI沖擊,尤其是視覺特效、音效師、畫圖師等后期工作崗位。
電影《Shovel Buddies》的編劇海勒曼(Jason Hellerman)認為,隨著AI工具的逐漸完善,未來制片方當然可能會通過Sora這樣的工具生成視頻,而不再需要給一個制作團隊支付薪酬。AI生成的內(nèi)容也可能會創(chuàng)造一個全新的類型,但如果任何人都可以用AI制作視頻和電影,成為“內(nèi)容創(chuàng)作者”,這也不可避免會帶來專業(yè)水準的降低。
他預(yù)測,未來每個人都可以生成自己視頻,就像是現(xiàn)在每個人都在手機上拍攝和觀看TikTok短視頻。習(xí)慣了短視頻的Z世代年輕人未來會逐漸摒棄電影和電視這樣的長內(nèi)容。也許在AI生成視頻的未來,電影和電視也會變成類似TikTok短視頻這樣的形式。