智源獨(dú)家丨謝賽寧:AI是否需要更強(qiáng)的視覺(jué)基礎(chǔ)來(lái)實(shí)現(xiàn)理解和意義?
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:智源獨(dú)家丨謝賽寧:AI是否需要更強(qiáng)的視覺(jué)基礎(chǔ)來(lái)實(shí)現(xiàn)理解和意義?
關(guān)鍵字:視覺(jué),模型,語(yǔ)言,報(bào)告,系統(tǒng)
文章來(lái)源:人工智能學(xué)家
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
來(lái)源:智源社區(qū)
6 月 15 日,萬(wàn)眾矚目的智源大會(huì)「多模態(tài)大模型」論壇轟動(dòng)舉行。紐約大學(xué)助理教授謝賽寧從哲學(xué)的角度出發(fā),針對(duì)大語(yǔ)言時(shí)代的視覺(jué)表征研究娓娓道來(lái)。從探索多模態(tài)大型語(yǔ)言模型的視覺(jué)缺陷、基于視覺(jué)搜索引導(dǎo)的多模態(tài)大模型、真實(shí)世界中的虛擬智能落地等方面介紹了團(tuán)隊(duì)的最新工作。通過(guò)這些工作,讀者們可以窺見(jiàn)MLLM 的未來(lái)風(fēng)向。
人工智能是否需要感知基礎(chǔ)來(lái)實(shí)現(xiàn)理解?實(shí)際上,早在 1990 年,Stevan Harnad 就討論了符號(hào)基礎(chǔ)的問(wèn)題。那時(shí),深度學(xué)習(xí)還沒(méi)誕生。人們認(rèn)為,只有當(dāng)我們?yōu)槿祟愓Z(yǔ)言或計(jì)算機(jī)代碼賦予某種感知基礎(chǔ),這些符號(hào)才有意義。AI 要阻止出現(xiàn)「語(yǔ)義鴻溝」:通常人們?cè)谂袆e圖像的相似性時(shí)并非建立在圖像底層視覺(jué)特征的相似上,而是建立在對(duì)圖像所描述的對(duì)象或的語(yǔ)義理解的基礎(chǔ)上。
在更早的 13世紀(jì),意大利的神學(xué)家托馬斯·阿奎納曾提出「There’s nothing in mind that wasn’t first in the senses」的觀點(diǎn),即先有感知才有心智。此外,17 世紀(jì)的哲學(xué)家 Diderot、Condilac 等 Sensim 學(xué)派哲學(xué)家也認(rèn)為:沒(méi)有感知
原文鏈接:智源獨(dú)家丨謝賽寧:AI是否需要更強(qiáng)的視覺(jué)基礎(chǔ)來(lái)實(shí)現(xiàn)理解和意義?
聯(lián)系作者
文章來(lái)源:人工智能學(xué)家
作者微信:AItists
作者簡(jiǎn)介:致力成為權(quán)威的人工智能科技媒體和前沿科技研究機(jī)構(gòu)