OmniCam – 浙大聯(lián)合上海交大等高校推出的多模態(tài)視頻生成框架

OmniCam是什么
OmniCam 是一款先進(jìn)的多模態(tài)視頻生成框架,利用攝像機(jī)控制技術(shù)實(shí)現(xiàn)高質(zhì)量視頻的創(chuàng)作。它支持多種輸入模態(tài)的組合,用戶可以通過(guò)提供文本描述、視頻軌跡或圖像作為參考,精確地操控?cái)z像機(jī)的軌跡。OmniCam 結(jié)合了大型語(yǔ)言模型(LLM)與視頻擴(kuò)散模型,能夠生成時(shí)空一致的高質(zhì)量視頻內(nèi)容。其訓(xùn)練分為三個(gè)階段,包含大規(guī)模模型訓(xùn)練、視頻擴(kuò)散模型訓(xùn)練以及強(qiáng)化學(xué)習(xí)微調(diào),確保生成視頻的準(zhǔn)確性和連貫性。
OmniCam的主要功能
- 多模態(tài)輸入支持:用戶能夠提供文本或視頻作為軌跡參考,并利用圖像或視頻作為內(nèi)容參考,實(shí)現(xiàn)對(duì)攝像機(jī)的精準(zhǔn)控制。
- 高質(zhì)量視頻生成:基于大型語(yǔ)言模型和視頻擴(kuò)散模型,OmniCam 輸出時(shí)空一致且高質(zhì)量的視頻。
- 靈活的攝像機(jī)控制:
- 支持逐幀控制,用戶可設(shè)置操作的起始與結(jié)束幀。
- 支持任意方向的復(fù)合,包括相機(jī)的拉近和推遠(yuǎn),移動(dòng)與旋轉(zhuǎn)至任意角度。
- 提供速度控制,以滿足快速剪輯的需求。
- 實(shí)現(xiàn)多種操作的無(wú)縫連接,支持長(zhǎng)序列操作,允許連續(xù)執(zhí)行多個(gè)指令。
- 支持常見(jiàn)的特效,例如相機(jī)旋轉(zhuǎn)。
- 數(shù)據(jù)集支持:引入了 OmniTr 數(shù)據(jù)集,這是針對(duì)多模態(tài)相機(jī)控制的首個(gè)大型數(shù)據(jù)集,為模型訓(xùn)練提供了堅(jiān)實(shí)的基礎(chǔ)。
OmniCam的技術(shù)原理
- 軌跡規(guī)劃:用戶輸入文本或視頻后,OmniCam 會(huì)將這些輸入轉(zhuǎn)化為離散的表示,通過(guò)精準(zhǔn)的軌跡規(guī)劃算法,計(jì)算每一幀畫面中攝像機(jī)的具置和姿態(tài)。具體而言,算法將攝像機(jī)圍繞物體中心建模為球面,從而得到軌跡上每一點(diǎn)的空間位置,并轉(zhuǎn)換為攝像機(jī)外參序列。
- 內(nèi)容渲染:結(jié)合用戶提供的內(nèi)容參考(如圖像或視頻)與規(guī)劃好的攝像機(jī)軌跡,OmniCam 運(yùn)用先進(jìn)的 3D 重建技術(shù),渲染初步視角的視頻幀。在渲染過(guò)程中,使用點(diǎn)云、攝像機(jī)內(nèi)參與外參等信息,通過(guò)特定算法優(yōu)化攝像機(jī)內(nèi)參,完成視頻幀的渲染。
- 細(xì)節(jié)完善:在渲染過(guò)程中,OmniCam 的擴(kuò)散模型會(huì)基于自身的先驗(yàn)知識(shí),對(duì)視頻幀進(jìn)行細(xì)節(jié)補(bǔ)充,填補(bǔ)空白區(qū)域,最終生成完整而精美的視頻。
- 大規(guī)模模型訓(xùn)練:以 Llama3.1 作為骨干網(wǎng)絡(luò)進(jìn)行微調(diào),以訓(xùn)練大規(guī)模模型。
- 視頻擴(kuò)散模型訓(xùn)練:專門對(duì)視頻擴(kuò)散模型進(jìn)行訓(xùn)練。
- 強(qiáng)化學(xué)習(xí)微調(diào):凍結(jié)下游視頻生成模型,將其作為獎(jiǎng)勵(lì)模型,利用 PPO 算法對(duì)軌跡大模型進(jìn)行微調(diào),以優(yōu)化模型性能。
OmniCam的項(xiàng)目地址
- arXiv技術(shù)論文:https://arxiv.org/pdf/2504.02312
OmniCam的應(yīng)用場(chǎng)景
- 影視制作:OmniCam 可以迅速生成復(fù)雜的鏡頭,幫助導(dǎo)演和制片人節(jié)省設(shè)計(jì)和拍攝鏡頭的時(shí)間與精力,提高制作效率,實(shí)現(xiàn)更豐富的創(chuàng)意表達(dá)。
- 廣告宣傳:廣告商可以利用 OmniCam 根據(jù)不同的宣傳需求快速調(diào)整鏡頭角度與軌跡,制作出更具吸引力的廣告視頻,吸引消費(fèi)者的注意。
- 教育與培訓(xùn):OmniCam 能夠生成生動(dòng)形象的教學(xué)視頻,將復(fù)雜的概念轉(zhuǎn)化為簡(jiǎn)單易懂的內(nèi)容。學(xué)生通過(guò)觀看這些視頻,可以更好地理解和掌握知識(shí),提升學(xué)習(xí)效果。
- 智能安防:OmniCam 可用于城市治安監(jiān)控、交通管理及應(yīng)急指揮等場(chǎng)景,實(shí)現(xiàn)多部門視頻資源的整合與協(xié)同。
常見(jiàn)問(wèn)題
- OmniCam的使用難度大嗎?:OmniCam 提供友好的用戶界面,用戶只需按照提示輸入相關(guān)信息即可,操作相對(duì)簡(jiǎn)單。
- 生成視頻的質(zhì)量如何?:OmniCam 能生成高質(zhì)量、時(shí)空一致的視頻,符合用戶的各種要求。
- 是否支持多種輸入方式?:是的,OmniCam 支持文本、視頻和圖像等多種輸入方式,方便用戶使用。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...

粵公網(wǎng)安備 44011502001135號(hào)