AIGC動態歡迎閱讀
原標題:拋棄視覺編碼器,這個「原生版」多模態大模型也能媲美主流方法
關鍵字:模型,視覺,編碼器,語言,數據
文章來源:機器之心
內容字數:0字
內容摘要:
AIxiv專欄是機器之心發布學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com一作刁海文,是大連理工大學博士生,導師是盧湖川教授。目前在北京智源人工智能研究院實習,指導老師是王鑫龍博士。他的研究興趣是視覺與語言,大模型高效遷移,多模態大模型等。共同一作崔玉峰,畢業于北京航空航天大學,是北京智源人工智能研究院視覺中心算法研究員。他的研究興趣是多模態模型、生成模型和計算機視覺,主要工作有 Emu 系列。
近期,關于多模態大模型的研究如火如荼,工業界對此的投入也越來越多。國外相繼推出了炙手可熱的模型,例如 GPT-4o (OpenAI)、Gemini(Google)、Phi-3V (Microsoft)、Claude-3V(Anthropic),以及 Grok-1.5V(xAI)等。與此同時,國內的 GLM-4V(智譜 AI)、Step-1.
原文鏈接:拋棄視覺編碼器,這個「原生版」多模態大模型也能媲美主流方法
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...