字節(jié)提出視覺(jué)基礎(chǔ)模型ViTamin,多項(xiàng)任務(wù)實(shí)現(xiàn)SOTA,入選CVPR2024
AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:字節(jié)提出視覺(jué)基礎(chǔ)模型ViTamin,多項(xiàng)任務(wù)實(shí)現(xiàn)SOTA,入選CVPR2024
關(guān)鍵字:字節(jié)跳動(dòng),模型,侵權(quán),視覺(jué),準(zhǔn)確率
文章來(lái)源:算法邦
內(nèi)容字?jǐn)?shù):4384字
內(nèi)容摘要:
文章轉(zhuǎn)載自公眾號(hào):量子位,本文只做學(xué)術(shù)/技術(shù)分享,如有侵權(quán),聯(lián)系刪文。
視覺(jué)語(yǔ)言模型屢屢出現(xiàn)新突破,但ViT仍是圖像編碼器的首選網(wǎng)絡(luò)結(jié)構(gòu)。
字節(jié)提出新基礎(chǔ)模型——ViTamin,專(zhuān)為視覺(jué)語(yǔ)言時(shí)代設(shè)計(jì)。
在使用相同的數(shù)據(jù)集和訓(xùn)練方案時(shí),ViTamin在ImageNet零樣本準(zhǔn)確率上比ViT提高了2.0%。
此外在分類(lèi)、檢索、開(kāi)放詞匯檢測(cè)和分割、多模態(tài)大語(yǔ)言模型等60個(gè)不同基準(zhǔn)上都表現(xiàn)出了良好的結(jié)果。
當(dāng)進(jìn)一步擴(kuò)展參數(shù)規(guī)模時(shí),ViTamin-XL僅有436M參數(shù),卻達(dá)到了82.9%的ImageNet零樣本準(zhǔn)確率,超過(guò)了擁有十倍參數(shù)(4.4B)的EVA-E。
最終這一成果,入選計(jì)算機(jī)視覺(jué)頂會(huì)CVPR2024。
01視覺(jué)語(yǔ)言時(shí)代新基準(zhǔn)在視覺(jué)語(yǔ)言時(shí)代下,如何設(shè)計(jì)一個(gè)更好可擴(kuò)展的視覺(jué)模型?
在ImageNet時(shí)代,新的視覺(jué)模型在ImageNet數(shù)據(jù)集得以驗(yàn)證,也造就了不斷有新的視覺(jué)模型涌現(xiàn)。但在視覺(jué)語(yǔ)言時(shí)代,新的視覺(jué)模型鮮為人見(jiàn)。
此外,基于現(xiàn)有常見(jiàn)視覺(jué)模型,在面對(duì)比ImageNet數(shù)據(jù)規(guī)模還大的情況下表現(xiàn)又是如何?研究團(tuán)隊(duì)們測(cè)試了幾種常見(jiàn)模型,包括純Transformer的ViT,純卷積網(wǎng)絡(luò)的C
原文鏈接:字節(jié)提出視覺(jué)基礎(chǔ)模型ViTamin,多項(xiàng)任務(wù)實(shí)現(xiàn)SOTA,入選CVPR2024
聯(lián)系作者
文章來(lái)源:算法邦
作者微信:allplusai
作者簡(jiǎn)介:智猩猩矩陣賬號(hào)之一,聚焦生成式AI,重點(diǎn)關(guān)注模型與應(yīng)用。