8人半年肝出開(kāi)源版GPT-4o,0延遲演示全網(wǎng)沸騰!背后技術(shù)揭秘,人人免費(fèi)用
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:8人半年肝出開(kāi)源版GPT-4o,0延遲演示全網(wǎng)沸騰!背后技術(shù)揭秘,人人免費(fèi)用
關(guān)鍵字:模型,語(yǔ)音,音頻,團(tuán)隊(duì),演示
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
新智元報(bào)道編輯:桃子 喬楊
【新智元導(dǎo)讀】GPT-4o或許還得等到今年秋季才對(duì)外開(kāi)放。不過(guò),由法國(guó)8人團(tuán)隊(duì)打造的原生多模態(tài)Moshi,已經(jīng)實(shí)現(xiàn)了接近GPT-4o的水平,現(xiàn)場(chǎng)演示幾乎0延遲,AI大佬紛紛轉(zhuǎn)發(fā)。沒(méi)想到,「開(kāi)源版」GPT-4o這么快就來(lái)了!
昨夜,來(lái)自法國(guó)AI實(shí)驗(yàn)室kyutai放出首個(gè)實(shí)時(shí)原生多模態(tài)Moshi,效果演示堪比5月發(fā)布的GPT-4o。
比如下面這個(gè)demo中,Moshi作為助手幫助Alexa小哥踏上太空之旅,讓人一秒幻視流浪地球中的Moss。
值得一提的是,這是8人團(tuán)隊(duì)僅用了半年的時(shí)間,從頭完成了模型的訓(xùn)練。
Moshi還處在實(shí)驗(yàn)原型階段,設(shè)計(jì)初衷是為了理解和表達(dá)情感,能夠支持聽(tīng)、說(shuō)、看,可以用70種不同情緒和風(fēng)格說(shuō)話,甚至隨時(shí)打斷。
它最為突出的一個(gè)能力是,能夠同時(shí)處理兩個(gè)音頻流,即「聽(tīng)」和「說(shuō)」是同時(shí)進(jìn)行的。
這種實(shí)時(shí)互動(dòng)的實(shí)現(xiàn),是基于文本和音頻混合的聯(lián)合預(yù)訓(xùn)練,用Helium中合成的文本數(shù)據(jù),訓(xùn)出的70億參數(shù)的模型。
Moshi可以實(shí)現(xiàn)最低160ms端到端延遲。
而且,最小版本的Moshi還可以在筆記本電腦,或者消費(fèi)級(jí)GPU上可跑。
許多人都說(shuō)這是最接近G
原文鏈接:8人半年肝出開(kāi)源版GPT-4o,0延遲演示全網(wǎng)沸騰!背后技術(shù)揭秘,人人免費(fèi)用
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。