Mora是由微軟與理海大學(xué)的研究團(tuán)隊共同開發(fā)的多智能體(AI Agents)框架,旨在處理通用的視頻生成任務(wù)。該框架的設(shè)計靈感源自于OpenAI的Sora視頻生成模型,致力于通過多個視覺智能體的協(xié)同工作,產(chǎn)生高質(zhì)量的視頻內(nèi)容。Mora將視頻生成流程分解為多個子任務(wù),并為每個子任務(wù)指派專門的智能體,從而實現(xiàn)多樣化的視頻生成功能。
Mora是什么
Mora是一個創(chuàng)新的多智能體框架,專門用于視頻生成領(lǐng)域,由微軟和理海大學(xué)的研究者們共同推出。其核心理念是利用多個視覺智能體的合作,生成高質(zhì)量的視頻內(nèi)容。Mora通過將視頻生成的復(fù)雜過程拆分為多個子任務(wù),為每個任務(wù)分配特定的智能體,從而實現(xiàn)了多種視頻生成能力。
實驗數(shù)據(jù)顯示,Mora在生成高分辨率(1024×576)、時長為12秒的視頻時表現(xiàn)優(yōu)異,總共生成75幀。然而,在處理動態(tài)物體較多的場景時,Mora與Sora相比的性能表現(xiàn)存在明顯差距。同時,嘗試生成超過12秒的視頻時,視頻質(zhì)量會顯著下降。
Mora的主要功能
- 文本到視頻生成:Mora能夠根據(jù)用戶提供的文本描述自動生成相應(yīng)的視頻內(nèi)容,適用于從簡單場景描述到復(fù)雜故事情節(jié)的創(chuàng)作。
- 圖像到視頻生成:Mora不僅支持從文本生成視頻,還能結(jié)合用戶提供的初始圖像和文本提示,生成與之匹配的視頻序列,增加內(nèi)容的多樣性和細(xì)節(jié)。
- 擴(kuò)展生成視頻:Mora可以對已有的視頻內(nèi)容進(jìn)行擴(kuò)展和編輯,增加新元素或延長視頻時長。
- 視頻編輯功能:Mora具有強(qiáng)大的編輯能力,能夠根據(jù)用戶的文本指令修改視頻,如更改場景、調(diào)整對象特性或添加新元素。
- 視頻連接:Mora能夠?qū)⒍鄠€視頻片段無縫連接,創(chuàng)造流暢的過渡效果,適合制作視頻合集或剪輯。
- 模擬數(shù)字世界:Mora可以根據(jù)文本描述創(chuàng)建出具有數(shù)字世界風(fēng)格的視頻序列,如游戲場景或虛擬環(huán)境。
Mora的官網(wǎng)入口
- GitHub地址:https://github.com/lichao-sun/Mora(源碼和模型待開源)
- arXiv研究論文:http://arxiv.org/abs/2403.13248
Mora的工作原理
Mora的工作機(jī)制基于一個多智能體架構(gòu),通過協(xié)同多個專業(yè)化的AI智能體來完成視頻生成任務(wù)。每個智能體負(fù)責(zé)特定的子任務(wù),這些任務(wù)共同構(gòu)成了完整的視頻生成流程。
以下是Mora工作流程的詳細(xì)步驟:
- 任務(wù)分解:Mora將復(fù)雜的視頻生成任務(wù)拆分為多個子任務(wù),每個子任務(wù)由一個專門的智能體負(fù)責(zé)。
- 智能體角色定義:Mora設(shè)定了五種基本角色的智能體:
- 提示選擇與生成智能體:使用大型語言模型(如GPT-4或Llama)來優(yōu)化和選擇文本提示,以提高生成圖像的相關(guān)性與質(zhì)量。
- 文本到圖像生成智能體:將文本提示轉(zhuǎn)換為高質(zhì)量的初始圖像。
- 圖像到圖像生成智能體:根據(jù)文本指令對給定的源圖像進(jìn)行修改。
- 圖像到視頻生成智能體:將靜態(tài)圖像轉(zhuǎn)化為動態(tài)視頻序列。
- 視頻連接智能體:基于兩個輸入視頻創(chuàng)建平滑過渡的視頻。
- 工作流程:Mora會根據(jù)任務(wù)需求,自動組織智能體按特定順序執(zhí)行子任務(wù)。例如,文本到視頻生成的任務(wù)可能包括以下步驟:
- 首先,提示選擇與生成智能體處理文本提示。
- 接著,文本到圖像生成智能體根據(jù)優(yōu)化后的文本提示生成初始圖像。
- 然后,圖像到視頻生成智能體將初始圖像轉(zhuǎn)化為視頻序列。
- 最后,如果需要,視頻連接智能體可以將多個視頻片段連接成一個連貫的視頻。
- 多智能體協(xié)作:智能體通過預(yù)定義的接口和協(xié)議進(jìn)行相互通信,確保整個視頻生成過程的連貫性與一致性。
- 生成與評估:每個智能體完成其子任務(wù)后,會把結(jié)果傳遞給下一個智能體,直至完成整個視頻生成過程。生成的視頻將根據(jù)預(yù)定義的評估標(biāo)準(zhǔn)進(jìn)行質(zhì)量評估。
- 迭代與優(yōu)化:Mora框架允許通過迭代與優(yōu)化來提升視頻生成的質(zhì)量。智能體可以根據(jù)反饋調(diào)整其參數(shù),以改善生成視頻的質(zhì)量與與文本提示的一致性。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...