計(jì)算機(jī)視覺GPT時(shí)刻!UC伯克利三巨頭祭出首個(gè)純CV大模型,推理驚現(xiàn)AGI火花

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:計(jì)算機(jī)視覺GPT時(shí)刻!UC伯克利三巨頭祭出首個(gè)純CV大模型,推理驚現(xiàn)AGI火花
文章來(lái)源:新智元
內(nèi)容字?jǐn)?shù):16210字
內(nèi)容摘要:新智元報(bào)道編輯:編輯部【新智元導(dǎo)讀】UC伯克利的CV三巨頭推出首個(gè)無(wú)自然語(yǔ)言的純視覺大模型,第一次證明純CV模型也是可擴(kuò)展的。更令人震驚的是,LVM竟然也能做對(duì)圖形推理題,AGI火花再次出現(xiàn)了?計(jì)算機(jī)視覺的GPT時(shí)刻,來(lái)了!最近,來(lái)自UC伯克利的計(jì)算機(jī)視覺「三巨頭」聯(lián)手推出了第一個(gè)無(wú)自然語(yǔ)言的純視覺大模型(Large Vision Models),并且第一次證明了純視覺模型本身也是可擴(kuò)展的(scalability)。除此之外,研究人員還利用超過(guò)420B token的數(shù)據(jù)集讓模型可以通過(guò)上下文學(xué)習(xí)來(lái)理解并執(zhí)行下游任務(wù),并且統(tǒng)一了圖片/視頻、有監(jiān)督/無(wú)監(jiān)督、合成/真實(shí)、2D/3D/4D等幾乎所有的數(shù)據(jù)形式。論文地址:https://arxiv.org/abs/2312.00785值得一提的是,讓LVM做非語(yǔ)言類智商測(cè)試(Raven’s Progressive Matrices )中常見的非語(yǔ)言…
原文鏈接:點(diǎn)此閱讀原文:計(jì)算機(jī)視覺GPT時(shí)刻!UC伯克利三巨頭祭出首個(gè)純CV大模型,推理驚現(xiàn)AGI火花
聯(lián)系作者
文章來(lái)源:新智元
作者微信:AI_era
作者簡(jiǎn)介:智能+中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對(duì)人類社會(huì)與文明進(jìn)化的影響,領(lǐng)航中國(guó)新智能時(shí)代。

粵公網(wǎng)安備 44011502001135號(hào)