SignLLM – 多語言手語生成模型,文字輸入生成對應(yīng)的手語視頻
SignLLM是什么
SignLLM 是一款性的多語言手語生成模型,能夠?qū)⑽淖州斎朕D(zhuǎn)化為相應(yīng)的手語視頻。作為全球首個(gè)支持多國手語的系統(tǒng),它涵蓋了美國手語(ASL)、德國手語(GSL)、阿根廷手語(LSA)、韓國手語(KSL)等八種語言。該模型基于 Prompt2Sign 數(shù)據(jù)集開發(fā),利用先進(jìn)的自動(dòng)化技術(shù)從網(wǎng)絡(luò)中采集和處理手語視頻,并結(jié)合新穎的損失函數(shù)和強(qiáng)化學(xué)習(xí)模塊,以實(shí)現(xiàn)高效的數(shù)據(jù)提取和模型訓(xùn)練。

SignLLM的主要功能
- 手語視頻生成:能夠?qū)⑤斎氲奈谋咀匀涣鲿车剞D(zhuǎn)換為手語手勢視頻,適用于多種語言。
- 多語言支持:支持覆蓋八種手語,服務(wù)于不同國家和地區(qū)的需求。
- 高效訓(xùn)練與優(yōu)化:通過強(qiáng)化學(xué)習(xí)模塊加速模型訓(xùn)練,提高數(shù)據(jù)采樣的質(zhì)量。
- 風(fēng)格遷移與微調(diào):將生成的手語視頻調(diào)整為逼真的表現(xiàn),接近真人手語的效果。
- 教育與翻譯支持:可應(yīng)用于手語教學(xué)、手語翻譯,為聾人群體提供溝通幫助。
SignLLM的技術(shù)原理
- 離散化與層次化表示:SignLLM通過兩個(gè)核心模塊實(shí)現(xiàn)手語視頻的離散化和層次化表示。首先,向量量化視覺手語(VQ-Sign)模塊將手語視頻拆分為一系列離散的字符級標(biāo)記,類似于自然語言中的字符。隨后,碼本重建與對齊(CRA)模塊將這些字符組合成詞匯級標(biāo)記,形成具有層次結(jié)構(gòu)的手語句子。
- 自監(jiān)督學(xué)習(xí)與上下文預(yù)測:VQ-Sign模塊采用上下文預(yù)測任務(wù)進(jìn)行自監(jiān)督學(xué)習(xí),而非傳統(tǒng)的視頻重建方式,從而在不重建高維視頻數(shù)據(jù)的情況下,捕捉手語視頻的時(shí)間依賴性和語義關(guān)系。
- 符號-文本對齊:為進(jìn)一步提高手語標(biāo)記與文本標(biāo)記之間的語義兼容性,SignLLM引入最大平均差異(MMD)損失函數(shù),將手語標(biāo)記的嵌入空間與文本標(biāo)記的嵌入空間進(jìn)行對齊。
- 與LLM的結(jié)合:SignLLM將生成的手語句子與凍結(jié)的LLM結(jié)合,通過文本提示引導(dǎo)LLM生成目標(biāo)語言的翻譯,利用LLM強(qiáng)大的翻譯能力,實(shí)現(xiàn)高效的手語到文本翻譯。
- 訓(xùn)練與推理:SignLLM的訓(xùn)練分為預(yù)訓(xùn)練和微調(diào)兩個(gè)階段,預(yù)訓(xùn)練階段包括上下文預(yù)測任務(wù)和碼本對齊,微調(diào)階段則進(jìn)一步優(yōu)化模型性能。
SignLLM的項(xiàng)目地址
- 項(xiàng)目官網(wǎng):https://signllm.github.io/
- Github倉庫:https://github.com/SignLLM
- arXiv技術(shù)論文:https://arxiv.org/pdf/2405.10718
SignLLM的應(yīng)用場景
- 教育領(lǐng)域:作為虛擬手語教師,SignLLM能夠?qū)⑽谋緦?shí)時(shí)轉(zhuǎn)化為手語手勢視頻,幫助學(xué)生更加直觀地學(xué)習(xí)手語,提升學(xué)習(xí)效率。
- 醫(yī)療場景:在醫(yī)院等醫(yī)療環(huán)境中,SignLLM可以將醫(yī)生的語音或文字即時(shí)轉(zhuǎn)換為手語,幫助聽障患者更準(zhǔn)確地描述癥狀并理解醫(yī)囑,提升就醫(yī)體驗(yàn)。
- 法律與公共服務(wù):在法庭或法律咨詢中,SignLLM可以提供精確的手語翻譯,確保聽障人士在法律事務(wù)中具備平等的溝通機(jī)會(huì)。此外,在公共服務(wù)或客戶服務(wù)中,能即時(shí)提供手語翻譯,便利聽障群體。
- 娛樂與媒體:SignLLM能夠?yàn)殡娪啊㈦娨暪?jié)目或網(wǎng)絡(luò)視頻提供實(shí)時(shí)手語翻譯,豐富聽障群體的文化生活。
- 日常生活:個(gè)人用戶可以利用SignLLM進(jìn)行日常交流,例如與聽障朋友對話或在安靜的環(huán)境中溝通。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...

粵公網(wǎng)安備 44011502001135號