8 人團(tuán)隊的開源多模態(tài):Moshi,效果堪比 GPT-4o,合成數(shù)據(jù)立功

AIGC動態(tài)歡迎閱讀
原標(biāo)題:8 人團(tuán)隊的開源多模態(tài):Moshi,效果堪比 GPT-4o,合成數(shù)據(jù)立功
關(guān)鍵字:解讀,人工智能,模型,報告,音頻
文章來源:Founder Park
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
文章轉(zhuǎn)載自「機(jī)器之心」。最近,一個對標(biāo) GPT-4o 的開源實時語音多模態(tài)模型火了。這個開源模型來自法國一個僅有 8 人的非營利性 AI 研究機(jī)構(gòu) ——Kyutai,模型名為 Moshi,具備聽、說、看的多模態(tài)功能。圖靈獎得主 Yann LeCun 轉(zhuǎn)發(fā)說道:「Moshi 能聽懂帶有法國口音的英語。」據(jù)悉,該團(tuán)隊開發(fā)這個模型僅用了 6 個月。
的確,在研究團(tuán)隊演示的視頻中,我們發(fā)現(xiàn) Moshi 可以非常流利地回答人們提出的問題,進(jìn)行日常對話交流,甚至可以猜出提問者的意圖。
例如,當(dāng)提問者說「下個月打算去攀登珠穆朗瑪峰,我在想……」,提問者話說到一半,Moshi 就說道:「太了不起了,你需要帶些什么裝備呢」,提問者則表示:「這正是我想討論的話題,你覺得我需要帶些什么呢」。于是,Moshi 給出了一些攀登設(shè)備的專業(yè)建議,并回答了關(guān)于注意事項的問題:
我們發(fā)現(xiàn) Moshi 還會開些小玩笑:「你肯定不想穿著涼鞋去爬山」。
研究團(tuán)隊還用各種說話風(fēng)格展示了 Moshi 表達(dá)和理解情緒的能力。例如,讓 Moshi 用法國口音誦讀詩句:
不過這首詩太長了,研究人員打斷了 Moshi 的朗誦,M
原文鏈接:8 人團(tuán)隊的開源多模態(tài):Moshi,效果堪比 GPT-4o,合成數(shù)據(jù)立功
聯(lián)系作者
文章來源:Founder Park
作者微信:Founder-Park
作者簡介:來自極客公園,專注與科技創(chuàng)業(yè)者聊「真問題」。

粵公網(wǎng)安備 44011502001135號