AIGC動態歡迎閱讀
原標題:讓大模型能聽會說,國內機構開源全球首個端到端語音對話模型Mini-Omni
關鍵字:語音,文本,模型,能力,方案
文章來源:機器之心
內容字數:0字
內容摘要:
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com本文出自啟元世界多模態算法組,共同一作是來自清華大學的一年級碩士生謝之非與啟元世界多模態負責人吳昌橋,研究興趣為多模態大模型、LLM Agents 等。本論文上線幾天內在 github 上斬獲 1000+星標。
隨著多類型大模型的飛速發展,全球 AI 已經進入到了多模交互時代。
2024 年 5 月,OpenAI 推出了全新的多模態模型 GPT4o,引起全球轟動。其中GPT4o展現出了與人類相近的自然語言交互能力,實現了 AI 能同時讀懂人類語音中的內容及情緒,并實時做出反饋。同時,GPT4o 也給眾多語音研究人員帶來「新的春天」,語音文本多模態大模型成為熱門研究方向。
實現類似 GPT4o 實時語音交互能力的核心是模型能夠直接在語音模態上進行理解和推理,這與
原文鏈接:讓大模型能聽會說,國內機構開源全球首個端到端語音對話模型Mini-Omni
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...