產(chǎn)品名稱:SOLAMI
產(chǎn)品簡介:SOLAMI是創(chuàng)新的VR端3D角色扮演AI系統(tǒng),是南洋理工大學(xué)研究團隊推出的。支持用戶用語音和肢體語言與虛擬角色進行沉浸式互動,基于社交視覺-語言-行為模型,提供超越傳統(tǒng)文本和語音交互的自然交流體驗。
詳細(xì)介紹:
SOLAMI是什么
SOLAMI是創(chuàng)新的VR端3D角色扮演AI系統(tǒng),是南洋理工大學(xué)研究團隊推出的。支持用戶用語音和肢體語言與虛擬角色進行沉浸式互動,基于社交視覺-語言-行為模型,提供超越傳統(tǒng)文本和語音交互的自然交流體驗。SOLAMI用端到端的VLA模型驅(qū)動,能識別用戶的肢體語言,作出響應(yīng),支持多種角色互動,如跳舞、玩游戲等。SOLAMI為AI角色扮演游戲帶來了新的沉浸式體驗。

SOLAMI的主要功能
- 沉浸式互動:用戶在VR環(huán)境中用語音和肢體語言與3D虛擬角色進行自然互動。
- 多模態(tài)響應(yīng):系統(tǒng)夠根據(jù)用戶的語音和動作輸入生成相應(yīng)的角色語音和動作響應(yīng)。
- 角色多樣性:支持多種角色,包括超級英雄、機器人、二次元角色等,提供豐富的互動體驗。
- 互動游戲:支持與角色進行簡單的互動游戲,如剪刀石頭布。
SOLAMI的技術(shù)原理
- 社交視覺-語言-行為模型(Social VLA):用端到端的VLA模型,處理用戶的語音和動作輸入,生成角色的響應(yīng)。
- 多模態(tài)輸入處理:基于Motion Tokenizer和Speech Tokenizer,用戶的語音和動作被轉(zhuǎn)換成模型能理解的token。
- LLM基座:用大型語言模型(LLM)作為基座,處理輸入的token,自回歸地輸出角色的語音和動作token。
- 動作表示:用戶的動作用SMPL-X的3D旋轉(zhuǎn)表示,用VQ-VAE進行編碼。
- 語音處理:用戶的語音用RVQ-VAE結(jié)構(gòu)進行編碼,用SoundStorm進行解碼,實現(xiàn)聲音克隆。
- 訓(xùn)練過程:包括多任務(wù)預(yù)訓(xùn)練和指令微調(diào)訓(xùn)練,讓模型學(xué)習(xí)動作、語音和文本之間的關(guān)聯(lián),處理多輪多模態(tài)對話。
SOLAMI的項目地址
- 項目官網(wǎng):solami-ai.github.io
- arXiv技術(shù)論文:https://arxiv.org/pdf/2412.00174
SOLAMI的應(yīng)用場景
- 虛擬社交:用戶在虛擬環(huán)境中與AI角色進行社交互動,模擬真實的對話和非語言交流。
- 游戲互動:在VR游戲中,作為NPC(非玩家角色),與玩家進行更自然的互動,提升游戲體驗。
- 教育和培訓(xùn):模擬教師或?qū)W生的角色,提供語言學(xué)習(xí)、社交技能訓(xùn)練等教育場景。
- 心理治療:在虛擬現(xiàn)實中模擬治療師角色,幫助用戶進行心理治療和社交恐懼癥的暴露療法。
- 娛樂和表演:用戶與虛擬歌手、舞者或演員互動,享受沉浸式的娛樂體驗。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號