必讀視頻專題飛象趣談光通信人工智能低空經濟5G手機智能汽車智慧城市會展特約記者

全球首個大一統(tǒng)多模態(tài)視頻模型可靈O1發(fā)布 讓P視頻像P圖一樣簡單

2025年12月3日 09:14CCTIME飛象網

近日,全球首個大一統(tǒng)的多模態(tài)視頻、圖片創(chuàng)作工具"可靈O1"正式上線?伸`O1基于全新的視頻和圖像模型,以自然語言作為語義骨架,配合視頻、圖片、主體等多模態(tài)描述,將所有生成和編輯任務融合于一個全能引擎之中,為用戶搭建全新的多模態(tài)創(chuàng)作流,實現從靈感到成品的一站式閉環(huán)。

大一統(tǒng)模型,解決視頻創(chuàng)作的所有難題

作為首個大一統(tǒng)多模態(tài)視頻模型,可靈O1基于MVL(Multi-modal Visual Language,多模態(tài)視覺語言)理念,打破了傳統(tǒng)單一視頻生成任務的模型邊界,將參考生視頻、文生視頻、首尾幀生視頻、視頻內容增刪、視頻修改變換、風格重繪、鏡頭延展等多種任務,融合于同一個全能引擎之中,使得用戶無需在多個模型及工具間跳轉,即可一站式完成從生成到修改的全部創(chuàng)作流程。

依托可靈視頻O1模型的深層語義理解力,用戶上傳的圖片、視頻、主體、文字——在可靈O1眼中,皆是指令。模型打破了模態(tài)限制,能夠綜合理解一張照片、一段視頻或一個主體,甚至一個角色的不同視角,精準生成各種細節(jié)。

可靈O1的多模態(tài)指令輸入區(qū),讓繁瑣的剪輯后期變成了簡單的對話。用戶無需手動遮罩或關鍵幀,只需輸入「移除路人」、「將白天改為黃昏」或「替換主角服裝」,模型即可讀懂影像邏輯,從局部的主體替換,到整體的視頻風格重繪,自動完成像素級的語義重構。此外,如圖片/主體參考;指令變換(視頻增加、刪除內容、切換景別/視角、視頻修改任務等)、視頻參考、首尾幀、文生視頻等能力也一并支持。

針對AI視頻難以落地的痛點——角色與場景的一致性,可靈O1底層強化了對輸入圖像及視頻的理解。 它能像人類導演一樣,“記住”主角、道具和場景。無論鏡頭如何流轉,主體特征始終穩(wěn)定如一。 此外,該模型展現了強大的多主體融合能力。用戶可以自由組合多個不同主體,或將主體與參考圖混搭。即便是在復雜的群像戲或互動場景中,模型也能獨立鎖定并保持每一位角色或道具的特征,確!爸鹘恰痹诓煌R頭中實現工業(yè)級的特征統(tǒng)一。

不再局限于單點任務,而是支持“技能組合”。 用戶可以要求可靈O1“在視頻中增加主體的同時修改背景”,或者“在圖片參考生成時,同步修改風格”。這種一次生成多種創(chuàng)意變化的能力,極大地拓展了創(chuàng)作的自由度,讓創(chuàng)意的化學反應成為可能。

敘事時長自由定義,讓每一段故事都有其獨特的呼吸感?伸`O1將定義時間的權力交還給創(chuàng)作者,支持3-10秒自由生成。無論是短促的視覺沖擊,還是悠長的故事鋪陳,都由用戶自由掌控。 值得注意的是,作為統(tǒng)一模型的一部分,可靈O1的首尾幀能力也將支持3-10秒的生成時長選擇(即將發(fā)布),這將進一步增強敘事的張弛度。

一同登場的還有可靈圖像O1模型,可實現從基礎圖像生成到高階細節(jié)編輯全鏈路無縫銜接,用戶既可通過純文本生成圖像,也可上傳最多10張參考圖進行融合再創(chuàng)作。 該模型具備四大核心優(yōu)勢:特征高度保持,讓主體元素穩(wěn)定不偏差;細節(jié)修改精準響應,讓每一處調整都符合預期;風格調性準確把控,讓畫面氛圍始終統(tǒng)一;超豐富想象力,讓創(chuàng)意呈現更具張力,真正實現“所想即所得”。

一個模型,搞定影視、自媒體、廣告電商等多視頻創(chuàng)作場景

全新的可靈O1集生成與編輯于一體,可廣泛適用于影視、自媒體、廣告電商等多種場景。無論是從零構建的敘事生成,還是對既有素材的深度重塑,可靈O1都能根據不同需求,靈活調用其參考、編輯的能力,輕松完成創(chuàng)作。

在影視創(chuàng)作領域,憑借可靈O1的超強一致性的圖片(主體)參考,配合主體庫功能,可以精準鎖定每個分鏡的角色及服化道,輕松創(chuàng)作生成多個連貫的影視鏡頭;而對于視頻后期、自媒體創(chuàng)作者來說,可通過簡單對話式的提示詞,如輸入“刪除背景中的路人”、“讓天空變藍”,就能讓可靈O1自動完成像素級的智能修補與重構。

針對傳統(tǒng)線下廣告實拍成本高,制作周期長的問題。如今用戶只需上傳商品圖、模特圖和場景圖,配合簡單指令描述,即可快速生成多個酷炫的商品展示廣告,大幅降低實拍成本。針對模特約拍麻煩、更換背景/服裝需要重復拍攝等問題,使用可靈O1,能搭建你的永不落幕的虛擬T臺:上傳模特 + 服裝實拍圖,輸入指令,完美還原服飾的質感和細節(jié),批量生產高質量的 Lookbook 視頻。

據悉,可靈O1能實現上述強大而全面的功能,源于在技術底座上的深層創(chuàng)新。全新的可靈視頻O1模型打破視頻模型在生成、編輯與理解上的功能割裂,構建了全新的生成式底座。融合多模態(tài)理解的Multimodal Transformer和多模態(tài)長上下文,實現了多任務的深度融合與統(tǒng)一。

編 輯:T01
飛象網版權及免責聲明:
1.本網刊載內容,凡注明來源為“飛象網”和“飛象原創(chuàng)”皆屬飛象網版權所有,未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題,請在相關作品刊發(fā)之日起30日內與本網聯系,我們將第一時間予以處理。
本站聯系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯系方式,進行的“內容核實”、“商務聯系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
推薦閱讀

精彩視頻

精彩專題

關于我們廣告報價聯系我們隱私聲明本站地圖

CCTIME飛象網 CopyRight © 2007-2025 By CCTIME.COM

京ICP備08004280號-1 電信與信息服務業(yè)務經營許可證080234號 京公網安備110105000771號

公司名稱: 北京飛象互動文化傳媒有限公司

未經書面許可,禁止轉載、摘編、復制、鏡像