產品名稱:SOLAMI
產品簡介:SOLAMI是創新的VR端3D角色扮演AI系統,是南洋理工大學研究團隊推出的。支持用戶用語音和肢體語言與虛擬角色進行沉浸式互動,基于社交視覺-語言-行為模型,提供超越傳統文本和語音交互的自然交流體驗。
詳細介紹:
SOLAMI是什么
SOLAMI是創新的VR端3D角色扮演AI系統,是南洋理工大學研究團隊推出的。支持用戶用語音和肢體語言與虛擬角色進行沉浸式互動,基于社交視覺-語言-行為模型,提供超越傳統文本和語音交互的自然交流體驗。SOLAMI用端到端的VLA模型驅動,能識別用戶的肢體語言,作出響應,支持多種角色互動,如跳舞、玩游戲等。SOLAMI為AI角色扮演游戲帶來了新的沉浸式體驗。
SOLAMI的主要功能
- 沉浸式互動:用戶在VR環境中用語音和肢體語言與3D虛擬角色進行自然互動。
- 多模態響應:系統夠根據用戶的語音和動作輸入生成相應的角色語音和動作響應。
- 角色多樣性:支持多種角色,包括超級英雄、機器人、二次元角色等,提供豐富的互動體驗。
- 互動游戲:支持與角色進行簡單的互動游戲,如剪刀石頭布。
SOLAMI的技術原理
- 社交視覺-語言-行為模型(Social VLA):用端到端的VLA模型,處理用戶的語音和動作輸入,生成角色的響應。
- 多模態輸入處理:基于Motion Tokenizer和Speech Tokenizer,用戶的語音和動作被轉換成模型能理解的token。
- LLM基座:用大型語言模型(LLM)作為基座,處理輸入的token,自回歸地輸出角色的語音和動作token。
- 動作表示:用戶的動作用SMPL-X的3D旋轉表示,用VQ-VAE進行編碼。
- 語音處理:用戶的語音用RVQ-VAE結構進行編碼,用SoundStorm進行解碼,實現聲音克隆。
- 訓練過程:包括多任務預訓練和指令微調訓練,讓模型學習動作、語音和文本之間的關聯,處理多輪多模態對話。
SOLAMI的項目地址
- 項目官網:solami-ai.github.io
- arXiv技術論文:https://arxiv.org/pdf/2412.00174
SOLAMI的應用場景
- 虛擬社交:用戶在虛擬環境中與AI角色進行社交互動,模擬真實的對話和非語言交流。
- 游戲互動:在VR游戲中,作為NPC(非玩家角色),與玩家進行更自然的互動,提升游戲體驗。
- 教育和培訓:模擬教師或學生的角色,提供語言學習、社交技能訓練等教育場景。
- 心理治療:在虛擬現實中模擬治療師角色,幫助用戶進行心理治療和社交恐懼癥的暴露療法。
- 娛樂和表演:用戶與虛擬歌手、舞者或演員互動,享受沉浸式的娛樂體驗。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章

暫無評論...