完全開源!謝賽寧發(fā)布最新SOTA多模態(tài)模型Cambrian-1,“不與GPT-4V媲美”

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:完全開源!謝賽寧發(fā)布最新SOTA多模態(tài)模型Cambrian-1,“不與GPT-4V媲美”
關(guān)鍵字:視覺,基準(zhǔn),數(shù)據(jù),編碼器,模型
文章來源:夕小瑤科技說
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
夕小瑤科技說 原創(chuàng)作者 | 21#
6月15日,智源大會(huì)「多模態(tài)大模型」論壇中,紐約大學(xué)助理教授謝賽寧從哲學(xué)的角度出發(fā),分享了AI是否需要更強(qiáng)的視覺基礎(chǔ)來實(shí)現(xiàn)理解和意義。
昨天,楊立坤、謝賽寧團(tuán)隊(duì)推出其最新研究工作,聚焦多模態(tài)模型視覺,發(fā)布以視覺為中心的多模態(tài)大語(yǔ)言模型(MLLM)–Cambrian-1。
Cambrian-1不僅實(shí)現(xiàn)了SOTA,還提供了一個(gè)全面的、開放的指令調(diào)優(yōu)MLLMs的指南,并且完全開源。
謝賽寧本科畢業(yè)于上海交通大學(xué),曾在Facebook人工智能研究院擔(dān)任研究科學(xué)家謝賽寧從Meta離職,加入紐約大學(xué)擔(dān)任助理教授。
論文題目: Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs
論文鏈接: https://arxiv.org/pdf/2406.16860
接下來,讓我們來看看研究的具體細(xì)節(jié)。
總的來說,Cambrian-1在傳統(tǒng)協(xié)議與使用MLLMs評(píng)估視覺表示之間建立了聯(lián)系,使用MLLM指令微調(diào)作為各種視覺表示的評(píng)估協(xié)議,MLLMs通過視覺問答來解決多種現(xiàn)實(shí)世界中的感知任
原文鏈接:完全開源!謝賽寧發(fā)布最新SOTA多模態(tài)模型Cambrian-1,“不與GPT-4V媲美”
聯(lián)系作者
文章來源:夕小瑤科技說
作者微信:xixiaoyaoQAQ
作者簡(jiǎn)介:專業(yè)、有趣、深度價(jià)值導(dǎo)向的科技媒體。聚集30萬AI工程師、研究員,覆蓋500多家海內(nèi)外機(jī)構(gòu)投資人,互聯(lián)網(wǎng)大廠中高管和AI公司創(chuàng)始人。一線作者來自清北、國(guó)內(nèi)外頂級(jí)AI實(shí)驗(yàn)室和大廠,兼?zhèn)涿翡J的行業(yè)嗅覺和洞察深度。商務(wù)合作:zym5189

粵公網(wǎng)安備 44011502001135號(hào)