讓大模型看圖比打字管用!NeurIPS 2023新研究提出多模態(tài)查詢方法,準(zhǔn)確率提升7.8%
AIGC動態(tài)歡迎閱讀
原標(biāo)題:讓大模型看圖比打字管用!NeurIPS 2023新研究提出多模態(tài)查詢方法,準(zhǔn)確率提升7.8%
關(guān)鍵字:文本,模型,目標(biāo),知乎,視覺
文章來源:量子位
內(nèi)容字?jǐn)?shù):6742字
內(nèi)容摘要:轉(zhuǎn)載自 沁園夏量子位 | 公眾號 QbitAI大模型“識圖”能力都這么強了,為啥還老找錯東西?例如,把長得不太像的蝙蝠和拍子搞混,又或是認(rèn)不出一些數(shù)據(jù)集中的稀有魚類……這是因為,我們讓大模型“找東西”時,往往輸入的是文本。如果描述有歧義或太偏門,像是“bat”(蝙蝠還是拍子?)或“魔鳉”(Cyprinodon diabolis),AI就會大為困惑。這就導(dǎo)致用大模型做目標(biāo)檢測、尤其是開放世界(未知場…
原文鏈接:點此閱讀原文:讓大模型看圖比打字管用!NeurIPS 2023新研究提出多模態(tài)查詢方法,準(zhǔn)確率提升7.8%
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載。
相關(guān)文章
暫無評論...