造出指令遵循能力卓越的多模態語言模型。
原標題:李飛飛團隊統一動作與語言,新的多模態模型不僅超懂指令,還能讀懂隱含情緒
文章來源:機器之心
內容字數:7982字
斯坦福大學研發多模態語言模型,實現富有表現力的動作生成與理解
近日,斯坦福大學李飛飛團隊提出了一種全新的多模態語言模型,能夠實現富有表現力的3D人體動作生成和理解。該模型能夠同時接受音頻和文本輸入,生成與語音內容協調一致的動作,并支持動作編輯。
1. 研究背景與動機
人類溝通交流包含豐富的多模態信息,理解和生類動作需要理解這些多模態行為。該研究利用多模態語言模型,將語音、文本和動作生成任務統一在一個框架下,以實現更自然、更富有表現力的動作生成。
2. 模型架構與訓練方法
該模型將動作分解為不同身體部位(臉、手、上身、下身)的token,并結合文本和語音token,構建統一的多模態詞匯表。采用兩階段訓練流程:首先進行預訓練,對齊不同模態的信息;然后進行下游任務訓練,使模型遵循各種任務指令。
預訓練階段包含兩種模態對齊:組合動作對齊(建模不同身體部位間的空間和時間關系)和音頻-文本對齊(利用大量可用的音頻-文本數據)。后訓練階段則通過指令微調,使模型能夠執行各種下游任務,例如伴語手勢生成和文本到動作生成。
3. 實驗結果與分析
實驗結果表明,該模型在伴語手勢生成任務上優于現有SOTA模型,尤其在數據稀缺的情況下優勢更明顯。模型能夠生成與語音同步的自然手勢動作,并能根據文本指令編輯動作序列。
實驗還驗證了預訓練策略的重要性。移除任何一個預訓練任務都會導致性能下降,表明組合動作對齊和音頻-文本對齊對模型性能至關重要。在數據量減少的情況下,該模型仍然表現出優異的泛化能力。
此外,模型還展現了根據動作預測情緒的能力,在該任務上也取得了顯著的成果,優于基線模型。
4. 模型應用與未來展望
該模型可以應用于游戲、VR等領域,實現更逼真、更自然的人機交互。其可編輯動作生成能力也為動作捕捉和動畫制作提供了新的可能性。這項研究為李飛飛的“空間智能”目標做出了重要貢獻。
總而言之,該研究提出了一種新穎的多模態語言模型,有效地統一了3D人體動作的言語和非言語語言,并在動作生成和理解方面取得了顯著進展,為未來多模態交互研究提供了新的方向。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺