LLIA – 美團(tuán)推出的音頻驅(qū)動(dòng)肖像視頻生成框架
LLIA(Low-Latency Interactive Avatars)是美團(tuán)公司研發(fā)的一款革新性的實(shí)時(shí)音頻驅(qū)動(dòng)肖像視頻生成框架,它基于前沿的擴(kuò)散模型技術(shù),能夠根據(jù)輸入的音頻信號(hào),實(shí)時(shí)生成栩栩如生的虛擬形象視頻,實(shí)現(xiàn)低延遲、高保真度的流暢交互體驗(yàn)。
LLIA:開啟沉浸式虛擬互動(dòng)新篇章
LLIA,全稱為L(zhǎng)ow-Latency Interactive Avatars(低延遲交互式虛擬形象),是美團(tuán)公司精心打造的創(chuàng)新框架。它利用先進(jìn)的擴(kuò)散模型,將音頻信息轉(zhuǎn)化為逼真的虛擬形象視頻,帶來前所未有的沉浸式交互體驗(yàn)。LLIA的核心優(yōu)勢(shì)在于其低延遲特性,結(jié)合可變長(zhǎng)度視頻生成技術(shù)、一致性模型訓(xùn)練策略以及模型量化技術(shù),實(shí)現(xiàn)了極速的推理速度。用戶不僅可以體驗(yàn)到流暢自然的互動(dòng),還能通過類別標(biāo)簽精細(xì)控制虛擬形象的狀態(tài)和表情,例如切換說話、傾聽或閑置等狀態(tài),從而獲得更具個(gè)性化的互動(dòng)體驗(yàn)。
核心功能一覽
- 實(shí)時(shí)音頻驅(qū)動(dòng)的肖像視頻生成:根據(jù)輸入的音頻信號(hào),即時(shí)生成對(duì)應(yīng)的肖像視頻,實(shí)現(xiàn)語音與表情、動(dòng)作的完美同步。
- 低延遲交互:在高性能GPU的加持下,LLIA能夠以高幀率(例如384×384分辨率下達(dá)到78 FPS)和極低的延遲(例如140 ms)生成視頻,滿足實(shí)時(shí)交互的需求。
- 多狀態(tài)切換:支持通過類別標(biāo)簽控制虛擬形象的狀態(tài),包括說話、傾聽和空閑等,讓虛擬形象能夠根據(jù)場(chǎng)景做出自然的反應(yīng)。
- 面部表情控制:利用肖像動(dòng)畫技術(shù),對(duì)參考圖像的表情進(jìn)行精細(xì)調(diào)整,從而實(shí)現(xiàn)對(duì)生成視頻中面部表情的精細(xì)控制,增強(qiáng)虛擬形象的表現(xiàn)力。
技術(shù)揭秘:LLIA背后的創(chuàng)新
LLIA的卓越表現(xiàn)源于其獨(dú)特的技術(shù)組合:
- 擴(kuò)散模型架構(gòu):LLIA以擴(kuò)散模型為基石,憑借其強(qiáng)大的生成能力和高保真度輸出,為高質(zhì)量視頻生成奠定了基礎(chǔ)。
- 可變長(zhǎng)度視頻生成:通過動(dòng)態(tài)訓(xùn)練策略,LLIA能夠在推理時(shí)生成不同長(zhǎng)度的視頻片段,在降低延遲的同時(shí),確保視頻質(zhì)量。
- 一致性模型(Consistency Models):引入一致性模型和判別器,LLIA能夠在更少的采樣步驟下生成高質(zhì)量視頻,從而顯著提升推理速度。
- 模型量化與并行化:通過模型量化(如INT8量化)和流水線并行技術(shù),LLIA進(jìn)一步優(yōu)化推理性能,降低計(jì)算資源需求。
- 條件輸入與控制:借助類別標(biāo)簽和肖像動(dòng)畫技術(shù),LLIA能夠根據(jù)輸入音頻的特征,動(dòng)態(tài)調(diào)整虛擬形象的狀態(tài)和表情,實(shí)現(xiàn)流暢自然的交互效果。
- 高質(zhì)量數(shù)據(jù)集:LLIA基于超過100小時(shí)的高質(zhì)量數(shù)據(jù)集進(jìn)行訓(xùn)練,涵蓋開源數(shù)據(jù)、網(wǎng)絡(luò)收集數(shù)據(jù)和合成數(shù)據(jù),從而提升模型在不同場(chǎng)景下的表現(xiàn)能力。
官方網(wǎng)站
了解更多關(guān)于LLIA的信息,請(qǐng)?jiān)L問官方網(wǎng)站:https://meigen-ai.github.io/llia/
應(yīng)用場(chǎng)景展望
- 虛擬面試:打造逼真的虛擬面試官或應(yīng)聘者,通過實(shí)時(shí)的表情和動(dòng)作反饋,增強(qiáng)面試的真實(shí)感和互動(dòng)性。
- 手機(jī)機(jī)器人:為機(jī)器人賦予生動(dòng)的虛擬形象,根據(jù)語音輸入實(shí)時(shí)生成表情和動(dòng)作,提升用戶交互體驗(yàn)。
- 虛擬客服:創(chuàng)建虛擬客服代表,實(shí)時(shí)響應(yīng)客戶語音,用自然的表情和動(dòng)作提升客戶滿意度。
- 在線教育:生成虛擬教師或助教,根據(jù)教學(xué)內(nèi)容和學(xué)生反饋實(shí)時(shí)調(diào)整表情和動(dòng)作,增強(qiáng)教學(xué)互動(dòng)性。
- 虛擬社交:為用戶生成個(gè)性化的虛擬形象,通過語音控制表情和動(dòng)作,實(shí)現(xiàn)更加真實(shí)自然的社交體驗(yàn)。
常見問題解答
Q: LLIA的延遲有多低?
A: 在高性能GPU上,LLIA能夠?qū)崿F(xiàn)低至140 ms的延遲,實(shí)現(xiàn)流暢的實(shí)時(shí)交互。
Q: LLIA支持哪些類型的虛擬形象?
A: LLIA可以根據(jù)用戶需求,生成各種類型的虛擬形象,包括人物、動(dòng)物等。
Q: 如何控制LLIA生成的虛擬形象的狀態(tài)?
A: LLIA支持通過類別標(biāo)簽控制虛擬形象的狀態(tài),例如說話、傾聽、空閑等。
Q: LLIA是否支持定制化?
A: 是的,LLIA提供了靈活的定制選項(xiàng),可以根據(jù)用戶的具體需求進(jìn)行調(diào)整。