解碼情感:新一代多模態(tài)模型超越指令,洞察隱含情緒
造出指令遵循能力卓越的多模態(tài)語言模型。
原標(biāo)題:李飛飛團(tuán)隊(duì)統(tǒng)一動(dòng)作與語言,新的多模態(tài)模型不僅超懂指令,還能讀懂隱含情緒
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7982字
探索多模態(tài)語言模型在動(dòng)作生成中的應(yīng)用
近期,斯坦福大學(xué)的研究團(tuán)隊(duì)在多模態(tài)語言模型的領(lǐng)域取得了重要進(jìn)展,尤其是在語音、文本和動(dòng)作生成任務(wù)的統(tǒng)一方面。他們提出了一種新型模型,能夠同時(shí)接受音頻和文本輸入,生成對(duì)應(yīng)的動(dòng)作。這項(xiàng)研究對(duì)理解人類的多模態(tài)溝通至關(guān)重要,尤其是對(duì)李飛飛教授提出的“空間智能”目標(biāo)的推動(dòng)作用。
1. 多模態(tài)語言模型的構(gòu)建
該團(tuán)隊(duì)的模型通過將動(dòng)作轉(zhuǎn)化為token實(shí)現(xiàn)多模態(tài)的結(jié)合,針對(duì)不同身體部位(如面部、上身、下身等)進(jìn)行動(dòng)作的token化。模型的訓(xùn)練流程分為兩個(gè)階段:首先進(jìn)行預(yù)訓(xùn)練,通過身體組合動(dòng)作對(duì)齊和音頻-文本對(duì)齊來整合不同模態(tài)的數(shù)據(jù),隨后在下游任務(wù)中微調(diào)模型以遵循具體指令。
2. 預(yù)訓(xùn)練的重要性
實(shí)驗(yàn)結(jié)果表明,該模型在多模態(tài)任務(wù)中表現(xiàn)優(yōu)越,尤其是在數(shù)據(jù)稀缺的情況下,預(yù)訓(xùn)練策略的優(yōu)勢(shì)更加明顯。模型能夠在未見過的語音-動(dòng)作數(shù)據(jù)上展現(xiàn)出良好的泛化能力,證明了預(yù)訓(xùn)練對(duì)提升模型性能的關(guān)鍵作用。
3. 可編輯的動(dòng)作生成
新模型的另一大亮點(diǎn)是其可編輯的動(dòng)作生成能力。研究團(tuán)隊(duì)展示了模型如何根據(jù)音頻和文本指令生成自然流暢的全身動(dòng)作,這一技術(shù)在游戲和虛擬現(xiàn)實(shí)等應(yīng)用中具有重要價(jià)值。同時(shí),模型還展示了根據(jù)動(dòng)作預(yù)測(cè)情緒的能力,進(jìn)一步拓展了其應(yīng)用場(chǎng)景。
4. 結(jié)論
該研究不僅為多模態(tài)語言模型的發(fā)展提供了新的視角,還為人類的動(dòng)作理解與生成開辟了新的可能性。這一創(chuàng)新模型的成功應(yīng)用,標(biāo)志著在實(shí)現(xiàn)人機(jī)交互中的重要一步,未來有望在更廣泛的領(lǐng)域中發(fā)揮作用。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)