沒有等來OpenAI開源GPT-4o，等來了開源版VITA

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：沒有等來OpenAI開源GPT-4o，等來了開源版VITA
關鍵字：模型,音頻,研究者,騰訊,數據
文章來源：機器之心
內容字數：0字

內容摘要：

機器之心報道
機器之心編輯部開源領域又傳來好消息。大語言模型 (LLM) 經歷了重大的演變，最近，我們也目睹了多模態大語言模型 (MLLM) 的蓬勃發展，它們表現出令人驚訝的多模態能力。
特別是，GPT-4o 的出現顯著推動了 MLLM 領域的發展。然而，與這些模型相對應的開源模型卻明顯不足。開源社區迫切需要進一步促進該領域的發展，這一點怎么強調也不為過。
本文，來自騰訊優圖實驗室等機構的研究者提出了 VITA，這是第一個開源的多模態大語言模型 (MLLM)，它能夠同時處理和分析視頻、圖像、文本和音頻模態，同時具有先進的多模態交互體驗。
研究者以 Mixtral 8×7B 為語言基礎，然后擴大其漢語詞匯量，并進行雙語指令微調。除此以外，研究者進一步通過多模態對齊和指令微調的兩階段多任務學習賦予語言模型視覺和音頻能力。
VITA 展示了強大的多語言、視覺和音頻理解能力，其在單模態和多模態基準測試中的出色表現證明了這一點。
除了基礎能力，該研究在提升自然多模態人機交互體驗方面也取得了長足進步。據了解，這是第一個在 MLLM 中利用非喚醒交互和音頻中斷的研究。研究者還設計了額外的狀態 to

原文鏈接：沒有等來OpenAI開源GPT-4o，等來了開源版VITA