8 人團(tuán)隊的開源多模態(tài)：Moshi，效果堪比 GPT-4o，合成數(shù)據(jù)立功

AIGC動態(tài)1年前 (2024)發(fā)布 Founder Park

AIGC動態(tài)歡迎閱讀

原標(biāo)題：8 人團(tuán)隊的開源多模態(tài)：Moshi，效果堪比 GPT-4o，合成數(shù)據(jù)立功
關(guān)鍵字：解讀,人工智能,模型,報告,音頻
文章來源：Founder Park
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

文章轉(zhuǎn)載自「機(jī)器之心」。最近，一個對標(biāo) GPT-4o 的開源實時語音多模態(tài)模型火了。這個開源模型來自法國一個僅有 8 人的非營利性 AI 研究機(jī)構(gòu) ——Kyutai，模型名為 Moshi，具備聽、說、看的多模態(tài)功能。圖靈獎得主 Yann LeCun 轉(zhuǎn)發(fā)說道：「Moshi 能聽懂帶有法國口音的英語。」據(jù)悉，該團(tuán)隊開發(fā)這個模型僅用了 6 個月。
的確，在研究團(tuán)隊演示的視頻中，我們發(fā)現(xiàn) Moshi 可以非常流利地回答人們提出的問題，進(jìn)行日常對話交流，甚至可以猜出提問者的意圖。
例如，當(dāng)提問者說「下個月打算去攀登珠穆朗瑪峰，我在想……」，提問者話說到一半，Moshi 就說道：「太了不起了，你需要帶些什么裝備呢」，提問者則表示：「這正是我想討論的話題，你覺得我需要帶些什么呢」。于是，Moshi 給出了一些攀登設(shè)備的專業(yè)建議，并回答了關(guān)于注意事項的問題：
我們發(fā)現(xiàn) Moshi 還會開些小玩笑：「你肯定不想穿著涼鞋去爬山」。
研究團(tuán)隊還用各種說話風(fēng)格展示了 Moshi 表達(dá)和理解情緒的能力。例如，讓 Moshi 用法國口音誦讀詩句：
不過這首詩太長了，研究人員打斷了 Moshi 的朗誦，M

原文鏈接：8 人團(tuán)隊的開源多模態(tài)：Moshi，效果堪比 GPT-4o，合成數(shù)據(jù)立功