僅用4塊GPU、不到3天訓練出「開源版GPT-4o」，這是國內團隊最新研究

AIGC動態歡迎閱讀

原標題：僅用4塊GPU、不到3天訓練出「開源版GPT-4o」，這是國內團隊最新研究
關鍵字：語音,指令,文本,模型,編碼器
文章來源：機器之心
內容字數：0字

內容摘要：

機器之心報道
編輯：小舟、陳陳LLaMA-Omni能夠接收語音指令，同步生成文本和語音響應，響應延遲低至 226ms，低于 GPT-4o 的平均音頻響應延遲 320ms。以 ChatGPT 為代表的大型語言模型（LLM）已成為強大的通用任務解決器，但大多數 LLM 僅支持基于文本的交互，這限制了它們在不適合文本輸入輸出的場景中的應用。GPT-4o 的出現使得通過語音與 LLM 進行交互成為可能。然而，開源社區對于構建此類基于 LLM 的語音交互模型仍然缺乏探索。
實現與 LLM 進行語音交互最簡單的方法是采用基于自動語音識別（ASR）和語音合成（TTS）模型的級聯系統，其中 ASR 模型將用戶的語音指令轉錄為文本， TTS 模型將 LLM 的響應合成為語音。
然而，由于級聯系統依次輸出轉錄文本、文本響應和語音響應，整個系統往往具有較高的延遲。相比之下，一些多模態語音 – 語言模型將語音離散化為 token 并擴展 LLM 的詞表以支持語音輸入和輸出。這種語音 – 語言模型理論上可以直接從語音指令生成語音響應，無需生成中間文本，從而實現極低的響應延遲。然而，在實踐中，由于涉及語音之間復雜

原文鏈接：僅用4塊GPU、不到3天訓練出「開源版GPT-4o」，這是國內團隊最新研究