AIGC動態歡迎閱讀
原標題:僅用4塊GPU、不到3天訓練出「開源版GPT-4o」,這是國內團隊最新研究
關鍵字:語音,指令,文本,模型,編碼器
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:小舟、陳陳LLaMA-Omni能夠接收語音指令,同步生成文本和語音響應,響應延遲低至 226ms,低于 GPT-4o 的平均音頻響應延遲 320ms。以 ChatGPT 為代表的大型語言模型(LLM)已成為強大的通用任務解決器,但大多數 LLM 僅支持基于文本的交互,這限制了它們在不適合文本輸入輸出的場景中的應用。GPT-4o 的出現使得通過語音與 LLM 進行交互成為可能。然而,開源社區對于構建此類基于 LLM 的語音交互模型仍然缺乏探索。
實現與 LLM 進行語音交互最簡單的方法是采用基于自動語音識別(ASR)和語音合成(TTS)模型的級聯系統,其中 ASR 模型將用戶的語音指令轉錄為文本, TTS 模型將 LLM 的響應合成為語音。
然而,由于級聯系統依次輸出轉錄文本、文本響應和語音響應,整個系統往往具有較高的延遲。相比之下,一些多模態語音 – 語言模型將語音離散化為 token 并擴展 LLM 的詞表以支持語音輸入和輸出。這種語音 – 語言模型理論上可以直接從語音指令生成語音響應,無需生成中間文本,從而實現極低的響應延遲。然而,在實踐中,由于涉及語音之間復雜
原文鏈接:僅用4塊GPU、不到3天訓練出「開源版GPT-4o」,這是國內團隊最新研究
聯系作者
文章來源:機器之心
作者微信:
作者簡介:
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...