開源數(shù)字人實時對話:形象可自定義,支持語音輸入,對話首包延遲可低至3s|已上線阿里ModelScope魔搭社區(qū)
AIGC動態(tài)歡迎閱讀
原標(biāo)題:開源數(shù)字人實時對話:形象可自定義,支持語音輸入,對話首包延遲可低至3s|已上線阿里ModelScope魔搭社區(qū)
關(guān)鍵字:項目,數(shù)字,模塊,語音,實時
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
池?zé)樅悖ǔ鼗?投稿量子位 | 公眾號 QbitAI開源數(shù)字人實時對話Demo來了~
支持語音輸入和實時對話,數(shù)字人形象可自定義的那種。
生成的數(shù)字人效果belike:
目前這個數(shù)字人實時對話Demo已在阿里巴巴ModelScope魔搭社區(qū)上線。
無需預(yù)訓(xùn)練即可使用自定義的數(shù)字人形象進(jìn)行實時對話,支持選擇不同的數(shù)字人形象和音色,對話首包延遲可低至3s。
基于開源技術(shù),該項目采用模塊化系統(tǒng)設(shè)計,各模塊均可快速更換,開發(fā)者可以擴展和優(yōu)化,適用于多種應(yīng)用場景,包括但不限于直播、新聞播報和助手等。
此外,該項目基于Gradio 5實現(xiàn)流式視頻輸出,方便部署和快速構(gòu)建交互式數(shù)字人應(yīng)用。
項目介紹現(xiàn)有的熱門開源數(shù)字人項目主要有以下幾個:
Linly Talker,基于Gradio的數(shù)字人對話項目,多模型集成,功能豐富,但不支持實時對話和流式輸出。
LiveTalking,基于流媒體的數(shù)字人生成項目,數(shù)字人響應(yīng)快,但交互界面比較簡陋,且需要配置服務(wù)器,部署難度較高。
awesome-digital-human-live2d,基于Dify編排的數(shù)字人互動項目,輕量化,交互方式豐富,但數(shù)字人形象
原文鏈接:開源數(shù)字人實時對話:形象可自定義,支持語音輸入,對話首包延遲可低至3s|已上線阿里ModelScope魔搭社區(qū)
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介: