每日微信報
人物專訪監(jiān)管
制造芯片
6G 運營
大數據物聯網
移動互聯網量子
云計算互聯網
報告衛(wèi)星

全球首個大一統(tǒng)多模態(tài)視頻模型可靈O1發(fā)布讓P視頻像P圖一樣簡單

2025年12月3日 09:14CCTIME飛象網

近日，全球首個大一統(tǒng)的多模態(tài)視頻、圖片創(chuàng)作工具"可靈O1"正式上線�？伸`O1基于全新的視頻和圖像模型，以自然語言作為語義骨架，配合視頻、圖片、主體等多模態(tài)描述，將所有生成和編輯任務融合于一個全能引擎之中，為用戶搭建全新的多模態(tài)創(chuàng)作流，實現從靈感到成品的一站式閉環(huán)。

大一統(tǒng)模型，解決視頻創(chuàng)作的所有難題

作為首個大一統(tǒng)多模態(tài)視頻模型，可靈O1基于MVL（Multi-modal Visual Language，多模態(tài)視覺語言）理念，打破了傳統(tǒng)單一視頻生成任務的模型邊界，將參考生視頻、文生視頻、首尾幀生視頻、視頻內容增刪、視頻修改變換、風格重繪、鏡頭延展等多種任務，融合于同一個全能引擎之中，使得用戶無需在多個模型及工具間跳轉，即可一站式完成從生成到修改的全部創(chuàng)作流程。

依托可靈視頻O1模型的深層語義理解力，用戶上傳的圖片、視頻、主體、文字——在可靈O1眼中，皆是指令。模型打破了模態(tài)限制，能夠綜合理解一張照片、一段視頻或一個主體，甚至一個角色的不同視角，精準生成各種細節(jié)。

可靈O1的多模態(tài)指令輸入區(qū)，讓繁瑣的剪輯后期變成了簡單的對話。用戶無需手動遮罩或關鍵幀，只需輸入「移除路人」、「將白天改為黃昏」或「替換主角服裝」，模型即可讀懂影像邏輯，從局部的主體替換，到整體的視頻風格重繪，自動完成像素級的語義重構。此外，如圖片/主體參考；指令變換（視頻增加、刪除內容、切換景別/視角、視頻修改任務等）、視頻參考、首尾幀、文生視頻等能力也一并支持。

針對AI視頻難以落地的痛點——角色與場景的一致性，可靈O1底層強化了對輸入圖像及視頻的理解。它能像人類導演一樣，“記住”主角、道具和場景。無論鏡頭如何流轉，主體特征始終穩(wěn)定如一。此外，該模型展現了強大的多主體融合能力。用戶可以自由組合多個不同主體，或將主體與參考圖混搭。即便是在復雜的群像戲或互動場景中，模型也能獨立鎖定并保持每一位角色或道具的特征，確�！爸鹘恰痹诓煌R頭中實現工業(yè)級的特征統(tǒng)一。

不再局限于單點任務，而是支持“技能組合”。用戶可以要求可靈O1“在視頻中增加主體的同時修改背景”，或者“在圖片參考生成時，同步修改風格”。這種一次生成多種創(chuàng)意變化的能力，極大地拓展了創(chuàng)作的自由度，讓創(chuàng)意的化學反應成為可能。

敘事時長自由定義，讓每一段故事都有其獨特的呼吸感�？伸`O1將定義時間的權力交還給創(chuàng)作者，支持3-10秒自由生成。無論是短促的視覺沖擊，還是悠長的故事鋪陳，都由用戶自由掌控。值得注意的是，作為統(tǒng)一模型的一部分，可靈O1的首尾幀能力也將支持3-10秒的生成時長選擇（即將發(fā)布），這將進一步增強敘事的張弛度。

一同登場的還有可靈圖像O1模型，可實現從基礎圖像生成到高階細節(jié)編輯全鏈路無縫銜接，用戶既可通過純文本生成圖像，也可上傳最多10張參考圖進行融合再創(chuàng)作。該模型具備四大核心優(yōu)勢：特征高度保持，讓主體元素穩(wěn)定不偏差；細節(jié)修改精準響應，讓每一處調整都符合預期；風格調性準確把控，讓畫面氛圍始終統(tǒng)一；超豐富想象力，讓創(chuàng)意呈現更具張力，真正實現“所想即所得”。

一個模型，搞定影視、自媒體、廣告電商等多視頻創(chuàng)作場景

全新的可靈O1集生成與編輯于一體，可廣泛適用于影視、自媒體、廣告電商等多種場景。無論是從零構建的敘事生成，還是對既有素材的深度重塑，可靈O1都能根據不同需求，靈活調用其參考、編輯的能力，輕松完成創(chuàng)作。

在影視創(chuàng)作領域，憑借可靈O1的超強一致性的圖片（主體）參考，配合主體庫功能，可以精準鎖定每個分鏡的角色及服化道，輕松創(chuàng)作生成多個連貫的影視鏡頭；而對于視頻后期、自媒體創(chuàng)作者來說，可通過簡單對話式的提示詞，如輸入“刪除背景中的路人”、“讓天空變藍”，就能讓可靈O1自動完成像素級的智能修補與重構。

針對傳統(tǒng)線下廣告實拍成本高，制作周期長的問題。如今用戶只需上傳商品圖、模特圖和場景圖，配合簡單指令描述，即可快速生成多個酷炫的商品展示廣告，大幅降低實拍成本。針對模特約拍麻煩、更換背景/服裝需要重復拍攝等問題，使用可靈O1，能搭建你的永不落幕的虛擬T臺：上傳模特 + 服裝實拍圖，輸入指令，完美還原服飾的質感和細節(jié)，批量生產高質量的 Lookbook 視頻。

據悉，可靈O1能實現上述強大而全面的功能，源于在技術底座上的深層創(chuàng)新。全新的可靈視頻O1模型打破視頻模型在生成、編輯與理解上的功能割裂，構建了全新的生成式底座。融合多模態(tài)理解的Multimodal Transformer和多模態(tài)長上下文，實現了多任務的深度融合與統(tǒng)一。

編輯：T01

飛象網版權及免責聲明:
1.本網刊載內容，凡注明來源為“飛象網”和“飛象原創(chuàng)”皆屬飛象網版權所有，未經允許禁止轉載、摘編及鏡像，違者必究。對于經過授權可以轉載，請必須保持轉載文章、圖像、音視頻的完整性，并完整標注作者信息和飛象網來源。
2.凡注明“來源：XXXX”的作品，均轉載自其它媒體，在于傳播更多行業(yè)信息，并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題，請在相關作品刊發(fā)之日起30日內與本網聯系，我們將第一時間予以處理。
本站聯系電話為86-010-87765777，郵件后綴為cctime.com，冒充本站員工以任何其他聯系方式，進行的“內容核實”、“商務聯系”等行為，均不能代表本站。本站擁有對此聲明的最終解釋權。