Mora

AI工具1年前 (2024)發布 AI工具集

Mora是由微軟與理海大學的研究團隊共同開發的多智能體（AI Agents）框架，旨在處理通用的視頻生成任務。該框架的設計靈感源自于OpenAI的Sora視頻生成模型，致力于通過多個視覺智能體的協同工作，產生高質量的視頻內容。Mora將視頻生成流程分解為多個子任務，并為每個子任務指派專門的智能體，從而實現多樣化的視頻生成功能。

Mora是什么

Mora是一個創新的多智能體框架，專門用于視頻生成領域，由微軟和理海大學的研究者們共同推出。其核心理念是利用多個視覺智能體的合作，生成高質量的視頻內容。Mora通過將視頻生成的復雜過程拆分為多個子任務，為每個任務分配特定的智能體，從而實現了多種視頻生成能力。

Mora

實驗數據顯示，Mora在生成高分辨率（1024×576）、時長為12秒的視頻時表現優異，總共生成75幀。然而，在處理動態物體較多的場景時，Mora與Sora相比的性能表現存在明顯差距。同時，嘗試生成超過12秒的視頻時，視頻質量會顯著下降。

Mora的主要功能

文本到視頻生成：Mora能夠根據用戶提供的文本描述自動生成相應的視頻內容，適用于從簡單場景描述到復雜故事情節的創作。
圖像到視頻生成：Mora不僅支持從文本生成視頻，還能結合用戶提供的初始圖像和文本提示，生成與之匹配的視頻序列，增加內容的多樣性和細節。
擴展生成視頻：Mora可以對已有的視頻內容進行擴展和編輯，增加新元素或延長視頻時長。
視頻編輯功能：Mora具有強大的編輯能力，能夠根據用戶的文本指令修改視頻，如更改場景、調整對象特性或添加新元素。
視頻連接：Mora能夠將多個視頻片段無縫連接，創造流暢的過渡效果，適合制作視頻合集或剪輯。
模擬數字世界：Mora可以根據文本描述創建出具有數字世界風格的視頻序列，如游戲場景或虛擬環境。

Mora的官網入口

GitHub地址：https://github.com/lichao-sun/Mora（源碼和模型待開源）
arXiv研究論文：http://arxiv.org/abs/2403.13248

Mora的工作原理

Mora的工作機制基于一個多智能體架構，通過協同多個專業化的AI智能體來完成視頻生成任務。每個智能體負責特定的子任務，這些任務共同構成了完整的視頻生成流程。

Mora

以下是Mora工作流程的詳細步驟：

任務分解：Mora將復雜的視頻生成任務拆分為多個子任務，每個子任務由一個專門的智能體負責。
智能體角色定義：Mora設定了五種基本角色的智能體：
- 提示選擇與生成智能體：使用大型語言模型（如GPT-4或Llama）來優化和選擇文本提示，以提高生成圖像的相關性與質量。
- 文本到圖像生成智能體：將文本提示轉換為高質量的初始圖像。
- 圖像到圖像生成智能體：根據文本指令對給定的源圖像進行修改。
- 圖像到視頻生成智能體：將靜態圖像轉化為動態視頻序列。
- 視頻連接智能體：基于兩個輸入視頻創建平滑過渡的視頻。
工作流程：Mora會根據任務需求，自動組織智能體按特定順序執行子任務。例如，文本到視頻生成的任務可能包括以下步驟：
- 首先，提示選擇與生成智能體處理文本提示。
- 接著，文本到圖像生成智能體根據優化后的文本提示生成初始圖像。
- 然后，圖像到視頻生成智能體將初始圖像轉化為視頻序列。
- 最后，如果需要，視頻連接智能體可以將多個視頻片段連接成一個連貫的視頻。
多智能體協作：智能體通過預定義的接口和協議進行相互通信，確保整個視頻生成過程的連貫性與一致性。
生成與評估：每個智能體完成其子任務后，會把結果傳遞給下一個智能體，直至完成整個視頻生成過程。生成的視頻將根據預定義的評估標準進行質量評估。
迭代與優化：Mora框架允許通過迭代與優化來提升視頻生成的質量。智能體可以根據反饋調整其參數，以改善生成視頻的質量與與文本提示的一致性。