讓大模型能聽會說，國內(nèi)機(jī)構(gòu)開源全球首個(gè)端到端語音對話模型Mini-Omni

AIGC動態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動態(tài)歡迎閱讀

原標(biāo)題：讓大模型能聽會說，國內(nèi)機(jī)構(gòu)開源全球首個(gè)端到端語音對話模型Mini-Omni
關(guān)鍵字：語音,文本,模型,能力,方案
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年，機(jī)器之心AIxiv專欄接收報(bào)道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級實(shí)驗(yàn)室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報(bào)道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com本文出自啟元世界多模態(tài)算法組，共同一作是來自清華大學(xué)的一年級碩士生謝之非與啟元世界多模態(tài)負(fù)責(zé)人吳昌橋，研究興趣為多模態(tài)大模型、LLM Agents 等。本論文上線幾天內(nèi)在 github 上斬獲 1000+星標(biāo)。
隨著多類型大模型的飛速發(fā)展，全球 AI 已經(jīng)進(jìn)入到了多模交互時(shí)代。
2024 年 5 月，OpenAI 推出了全新的多模態(tài)模型 GPT4o，引起全球轟動。其中GPT4o展現(xiàn)出了與人類相近的自然語言交互能力，實(shí)現(xiàn)了 AI 能同時(shí)讀懂人類語音中的內(nèi)容及情緒，并實(shí)時(shí)做出反饋。同時(shí)，GPT4o 也給眾多語音研究人員帶來「新的春天」，語音文本多模態(tài)大模型成為熱門研究方向。
實(shí)現(xiàn)類似 GPT4o 實(shí)時(shí)語音交互能力的核心是模型能夠直接在語音模態(tài)上進(jìn)行理解和推理，這與

原文鏈接：讓大模型能聽會說，國內(nèi)機(jī)構(gòu)開源全球首個(gè)端到端語音對話模型Mini-Omni