沒有等來OpenAI開源GPT-4o,等來了開源版VITA
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:沒有等來OpenAI開源GPT-4o,等來了開源版VITA
關(guān)鍵字:模型,音頻,研究者,騰訊,數(shù)據(jù)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
機(jī)器之心報(bào)道
機(jī)器之心編輯部開源領(lǐng)域又傳來好消息。大語言模型 (LLM) 經(jīng)歷了重大的演變,最近,我們也目睹了多模態(tài)大語言模型 (MLLM) 的蓬勃發(fā)展,它們表現(xiàn)出令人驚訝的多模態(tài)能力。
特別是,GPT-4o 的出現(xiàn)顯著推動(dòng)了 MLLM 領(lǐng)域的發(fā)展。然而,與這些模型相對(duì)應(yīng)的開源模型卻明顯不足。開源社區(qū)迫切需要進(jìn)一步促進(jìn)該領(lǐng)域的發(fā)展,這一點(diǎn)怎么強(qiáng)調(diào)也不為過。
本文 ,來自騰訊優(yōu)圖實(shí)驗(yàn)室等機(jī)構(gòu)的研究者提出了 VITA,這是第一個(gè)開源的多模態(tài)大語言模型 (MLLM),它能夠同時(shí)處理和分析視頻、圖像、文本和音頻模態(tài),同時(shí)具有先進(jìn)的多模態(tài)交互體驗(yàn)。
研究者以 Mixtral 8×7B 為語言基礎(chǔ),然后擴(kuò)大其漢語詞匯量,并進(jìn)行雙語指令微調(diào)。除此以外,研究者進(jìn)一步通過多模態(tài)對(duì)齊和指令微調(diào)的兩階段多任務(wù)學(xué)習(xí)賦予語言模型視覺和音頻能力。
VITA 展示了強(qiáng)大的多語言、視覺和音頻理解能力,其在單模態(tài)和多模態(tài)基準(zhǔn)測(cè)試中的出色表現(xiàn)證明了這一點(diǎn)。
除了基礎(chǔ)能力,該研究在提升自然多模態(tài)人機(jī)交互體驗(yàn)方面也取得了長(zhǎng)足進(jìn)步。據(jù)了解,這是第一個(gè)在 MLLM 中利用非喚醒交互和音頻中斷的研究。研究者還設(shè)計(jì)了額外的狀態(tài) to
原文鏈接:沒有等來OpenAI開源GPT-4o,等來了開源版VITA
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡(jiǎn)介: