造出指令遵循能力卓越的多模態語言模型。

探索多模態語言模型在動作生成中的應用
近期,斯坦福大學的研究團隊在多模態語言模型的領域取得了重要進展,尤其是在語音、文本和動作生成任務的統一方面。他們提出了一種新型模型,能夠同時接受音頻和文本輸入,生成對應的動作。這項研究對理解人類的多模態溝通至關重要,尤其是對李飛飛教授提出的“空間智能”目標的推動作用。
1. 多模態語言模型的構建
該團隊的模型通過將動作轉化為token實現多模態的結合,針對不同身體部位(如面部、上身、下身等)進行動作的token化。模型的訓練流程分為兩個階段:首先進行預訓練,通過身體組合動作對齊和音頻-文本對齊來整合不同模態的數據,隨后在下游任務中微調模型以遵循具體指令。
2. 預訓練的重要性
實驗結果表明,該模型在多模態任務中表現優越,尤其是在數據稀缺的情況下,預訓練策略的優勢更加明顯。模型能夠在未見過的語音-動作數據上展現出良好的泛化能力,證明了預訓練對提升模型性能的關鍵作用。
3. 可編輯的動作生成
新模型的另一大亮點是其可編輯的動作生成能力。研究團隊展示了模型如何根據音頻和文本指令生成自然流暢的全身動作,這一技術在游戲和虛擬現實等應用中具有重要價值。同時,模型還展示了根據動作預測情緒的能力,進一步拓展了其應用場景。
4. 結論
該研究不僅為多模態語言模型的發展提供了新的視角,還為人類的動作理解與生成開辟了新的可能性。這一創新模型的成功應用,標志著在實現人機交互中的重要一步,未來有望在更廣泛的領域中發揮作用。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...
 
  
  
  
 
 粵公網安備 44011502001135號
 粵公網安備 44011502001135號