拋棄視覺編碼器，這個「原生版」多模態(tài)大模型也能媲美主流方法

AIGC動態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動態(tài)歡迎閱讀

原標(biāo)題：拋棄視覺編碼器，這個「原生版」多模態(tài)大模型也能媲美主流方法
關(guān)鍵字：模型,視覺,編碼器,語言,數(shù)據(jù)
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

AIxiv專欄是機(jī)器之心發(fā)布學(xué)術(shù)、技術(shù)內(nèi)容的欄目。過去數(shù)年，機(jī)器之心AIxiv專欄接收報道了2000多篇內(nèi)容，覆蓋全球各大高校與企業(yè)的頂級實驗室，有效促進(jìn)了學(xué)術(shù)交流與傳播。如果您有優(yōu)秀的工作想要分享，歡迎投稿或者聯(lián)系報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com一作刁海文，是大連理工大學(xué)博士生，導(dǎo)師是盧湖川教授。目前在北京智源人工智能研究院實習(xí)，指導(dǎo)老師是王鑫龍博士。他的研究興趣是視覺與語言，大模型高效遷移，多模態(tài)大模型等。共同一作崔玉峰，畢業(yè)于北京航空航天大學(xué)，是北京智源人工智能研究院視覺中心算法研究員。他的研究興趣是多模態(tài)模型、生成模型和計算機(jī)視覺，主要工作有 Emu 系列。
近期，關(guān)于多模態(tài)大模型的研究如火如荼，工業(yè)界對此的投入也越來越多。國外相繼推出了炙手可熱的模型，例如 GPT-4o （OpenAI）、Gemini（Google）、Phi-3V （Microsoft）、Claude-3V（Anthropic），以及 Grok-1.5V（xAI）等。與此同時，國內(nèi)的 GLM-4V（智譜 AI）、Step-1.

原文鏈接：拋棄視覺編碼器，這個「原生版」多模態(tài)大模型也能媲美主流方法