8人小團隊單挑OpenAI，半年仿出GPT-4o，還開源了

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：8人小團隊單挑OpenAI，半年仿出GPT-4o，還開源了
關鍵字：模型,人工智能,報告,音頻,研究人員
文章來源：機器之心
內容字數：0字

內容摘要：

機器之心報道
機器之心編輯部最近，一個對標 GPT-4o 的開源實時語音多模態模型火了。
這個開源模型來自法國一個僅有 8 人的非營利性 AI 研究機構 ——Kyutai，模型名為 Moshi，具備聽、說、看的多模態功能。圖靈獎得主 Yann LeCun 轉發說道：「Moshi 能聽懂帶有法國口音的英語。」據悉，該團隊開發這個模型僅用了 6 個月。的確，在研究團隊演示的視頻中，我們發現 Moshi 可以非常流利地回答人們提出的問題，進行日常對話交流，甚至可以猜出提問者的意圖。
例如，當提問者說「下個月打算去攀登珠穆朗瑪峰，我在想……」，提問者話說到一半，Moshi 就說道：「太了不起了，你需要帶些什么裝備呢」，提問者則表示：「這正是我想討論的話題，你覺得我需要帶些什么呢」。于是，Moshi 給出了一些攀登設備的專業建議，并回答了關于注意事項的問題：我們發現 Moshi 還會開些小玩笑：「你肯定不想穿著涼鞋去爬山」。
研究團隊還用各種說話風格展示了 Moshi 表達和理解情緒的能力。例如，讓 Moshi 用法國口音誦讀詩句：不過這首詩太長了，研究人員打斷了 Moshi 的朗誦，M

原文鏈接：8人小團隊單挑OpenAI，半年仿出GPT-4o，還開源了