李飛飛團隊統一動作與語言，新的多模態模型不僅超懂指令，還能讀懂隱含情緒

AIGC動態7個月前發布機器之心

420 0 0

造出指令遵循能力卓越的多模態語言模型。

原標題：李飛飛團隊統一動作與語言，新的多模態模型不僅超懂指令，還能讀懂隱含情緒
文章來源：機器之心
內容字數：7982字

斯坦福大學研發多模態語言模型，實現富有表現力的動作生成與理解

近日，斯坦福大學李飛飛團隊提出了一種全新的多模態語言模型，能夠實現富有表現力的3D人體動作生成和理解。該模型能夠同時接受音頻和文本輸入，生成與語音內容協調一致的動作，并支持動作編輯。

1. 研究背景與動機

人類溝通交流包含豐富的多模態信息，理解和生類動作需要理解這些多模態行為。該研究利用多模態語言模型，將語音、文本和動作生成任務統一在一個框架下，以實現更自然、更富有表現力的動作生成。

2. 模型架構與訓練方法

該模型將動作分解為不同身體部位（臉、手、上身、下身）的token，并結合文本和語音token，構建統一的多模態詞匯表。采用兩階段訓練流程：首先進行預訓練，對齊不同模態的信息；然后進行下游任務訓練，使模型遵循各種任務指令。

預訓練階段包含兩種模態對齊：組合動作對齊（建模不同身體部位間的空間和時間關系）和音頻-文本對齊（利用大量可用的音頻-文本數據）。后訓練階段則通過指令微調，使模型能夠執行各種下游任務，例如伴語手勢生成和文本到動作生成。

3. 實驗結果與分析

實驗結果表明，該模型在伴語手勢生成任務上優于現有SOTA模型，尤其在數據稀缺的情況下優勢更明顯。模型能夠生成與語音同步的自然手勢動作，并能根據文本指令編輯動作序列。

實驗還驗證了預訓練策略的重要性。移除任何一個預訓練任務都會導致性能下降，表明組合動作對齊和音頻-文本對齊對模型性能至關重要。在數據量減少的情況下，該模型仍然表現出優異的泛化能力。

此外，模型還展現了根據動作預測情緒的能力，在該任務上也取得了顯著的成果，優于基線模型。

4. 模型應用與未來展望

該模型可以應用于游戲、VR等領域，實現更逼真、更自然的人機交互。其可編輯動作生成能力也為動作捕捉和動畫制作提供了新的可能性。這項研究為李飛飛的“空間智能”目標做出了重要貢獻。

總而言之，該研究提出了一種新穎的多模態語言模型，有效地統一了3D人體動作的言語和非言語語言，并在動作生成和理解方面取得了顯著進展，為未來多模態交互研究提供了新的方向。

聯系作者

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # 多模態情感計算 # 多模態指令理解 # 李飛飛團隊AI模型 # 統一動作語言模型 # 隱含情緒識別

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

李飛飛團隊統一動作與語言，新的多模態模型不僅超懂指令，還能讀懂隱含情緒

造出指令遵循能力卓越的多模態語言模型。

斯坦福大學研發多模態語言模型，實現富有表現力的動作生成與理解

1. 研究背景與動機

2. 模型架構與訓練方法

3. 實驗結果與分析

4. 模型應用與未來展望

聯系作者

下周六上海見！AI Compiler技術沙龍匯集智源、字節、凌川科技等大咖

揭開AI對話的面紗：生數、智譜、宇樹與智源的思想碰撞與共鳴

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

李飛飛團隊統一動作與語言，新的多模態模型不僅超懂指令，還能讀懂隱含情緒

造出指令遵循能力卓越的多模態語言模型。

斯坦福大學研發多模態語言模型，實現富有表現力的動作生成與理解

1. 研究背景與動機

2. 模型架構與訓練方法

3. 實驗結果與分析

4. 模型應用與未來展望

聯系作者

下周六上海見！AI Compiler技術沙龍匯集智源、字節、凌川科技等大咖

揭開AI對話的面紗：生數、智譜、宇樹與智源的思想碰撞與共鳴

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點

李飛飛團隊統一動作與語言，新的多模態模型不僅超懂指令，還能讀懂隱含情緒

斯坦福大學研發多模態語言模型，實現富有表現力的動作生成與理解

下周六上海見！AI Compiler技術沙龍匯集智源、字節、凌川科技等大咖