產(chǎn)品名稱:SOLAMI
產(chǎn)品簡(jiǎn)介:SOLAMI是創(chuàng)新的VR端3D角色扮演AI系統(tǒng),是南洋理工大學(xué)研究團(tuán)隊(duì)推出的。支持用戶用語(yǔ)音和肢體語(yǔ)言與虛擬角色進(jìn)行沉浸式互動(dòng),基于社交視覺(jué)-語(yǔ)言-行為模型,提供超越傳統(tǒng)文本和語(yǔ)音交互的自然交流體驗(yàn)。
詳細(xì)介紹:
SOLAMI是什么
SOLAMI是創(chuàng)新的VR端3D角色扮演AI系統(tǒng),是南洋理工大學(xué)研究團(tuán)隊(duì)推出的。支持用戶用語(yǔ)音和肢體語(yǔ)言與虛擬角色進(jìn)行沉浸式互動(dòng),基于社交視覺(jué)-語(yǔ)言-行為模型,提供超越傳統(tǒng)文本和語(yǔ)音交互的自然交流體驗(yàn)。SOLAMI用端到端的VLA模型驅(qū)動(dòng),能識(shí)別用戶的肢體語(yǔ)言,作出響應(yīng),支持多種角色互動(dòng),如跳舞、玩游戲等。SOLAMI為AI角色扮演游戲帶來(lái)了新的沉浸式體驗(yàn)。
SOLAMI的主要功能
- 沉浸式互動(dòng):用戶在VR環(huán)境中用語(yǔ)音和肢體語(yǔ)言與3D虛擬角色進(jìn)行自然互動(dòng)。
- 多模態(tài)響應(yīng):系統(tǒng)夠根據(jù)用戶的語(yǔ)音和動(dòng)作輸入生成相應(yīng)的角色語(yǔ)音和動(dòng)作響應(yīng)。
- 角色多樣性:支持多種角色,包括超級(jí)英雄、機(jī)器人、二次元角色等,提供豐富的互動(dòng)體驗(yàn)。
- 互動(dòng)游戲:支持與角色進(jìn)行簡(jiǎn)單的互動(dòng)游戲,如剪刀石頭布。
SOLAMI的技術(shù)原理
- 社交視覺(jué)-語(yǔ)言-行為模型(Social VLA):用端到端的VLA模型,處理用戶的語(yǔ)音和動(dòng)作輸入,生成角色的響應(yīng)。
- 多模態(tài)輸入處理:基于Motion Tokenizer和Speech Tokenizer,用戶的語(yǔ)音和動(dòng)作被轉(zhuǎn)換成模型能理解的token。
- LLM基座:用大型語(yǔ)言模型(LLM)作為基座,處理輸入的token,自回歸地輸出角色的語(yǔ)音和動(dòng)作token。
- 動(dòng)作表示:用戶的動(dòng)作用SMPL-X的3D旋轉(zhuǎn)表示,用VQ-VAE進(jìn)行編碼。
- 語(yǔ)音處理:用戶的語(yǔ)音用RVQ-VAE結(jié)構(gòu)進(jìn)行編碼,用SoundStorm進(jìn)行解碼,實(shí)現(xiàn)聲音克隆。
- 訓(xùn)練過(guò)程:包括多任務(wù)預(yù)訓(xùn)練和指令微調(diào)訓(xùn)練,讓模型學(xué)習(xí)動(dòng)作、語(yǔ)音和文本之間的關(guān)聯(lián),處理多輪多模態(tài)對(duì)話。
SOLAMI的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):solami-ai.github.io
- arXiv技術(shù)論文:https://arxiv.org/pdf/2412.00174
SOLAMI的應(yīng)用場(chǎng)景
- 虛擬社交:用戶在虛擬環(huán)境中與AI角色進(jìn)行社交互動(dòng),模擬真實(shí)的對(duì)話和非語(yǔ)言交流。
- 游戲互動(dòng):在VR游戲中,作為NPC(非玩家角色),與玩家進(jìn)行更自然的互動(dòng),提升游戲體驗(yàn)。
- 教育和培訓(xùn):模擬教師或?qū)W生的角色,提供語(yǔ)言學(xué)習(xí)、社交技能訓(xùn)練等教育場(chǎng)景。
- 心理治療:在虛擬現(xiàn)實(shí)中模擬治療師角色,幫助用戶進(jìn)行心理治療和社交恐懼癥的暴露療法。
- 娛樂(lè)和表演:用戶與虛擬歌手、舞者或演員互動(dòng),享受沉浸式的娛樂(lè)體驗(yàn)。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...