字節(jié)發(fā)布視覺基礎(chǔ)模型ViTamin,多項(xiàng)任務(wù)實(shí)現(xiàn)SOTA,入選CVPR2024
AIGC動態(tài)歡迎閱讀
原標(biāo)題:字節(jié)發(fā)布視覺基礎(chǔ)模型ViTamin,多項(xiàng)任務(wù)實(shí)現(xiàn)SOTA,入選CVPR2024
關(guān)鍵字:字節(jié)跳動,模型,視覺,準(zhǔn)確率,特征
文章來源:量子位
內(nèi)容字?jǐn)?shù):4381字
內(nèi)容摘要:
允中 發(fā)自 凹非寺量子位 | 公眾號 QbitAI視覺語言模型屢屢出現(xiàn)新突破,但ViT仍是圖像編碼器的首選網(wǎng)絡(luò)結(jié)構(gòu)。
字節(jié)提出新基礎(chǔ)模型——ViTamin,專為視覺語言時代設(shè)計。
在使用相同的數(shù)據(jù)集和訓(xùn)練方案時,ViTamin在ImageNet零樣本準(zhǔn)確率上比ViT提高了2.0%。
此外在分類、檢索、開放詞匯檢測和分割、多模態(tài)大語言模型等60個不同基準(zhǔn)上都表現(xiàn)出了良好的結(jié)果。
當(dāng)進(jìn)一步擴(kuò)展參數(shù)規(guī)模時,ViTamin-XL僅有436M參數(shù),卻達(dá)到了82.9%的ImageNet零樣本準(zhǔn)確率,超過了擁有十倍參數(shù)(4.4B)的EVA-E。
最終這一成果,入選計算機(jī)視覺頂會CVPR2024。
視覺語言時代新基準(zhǔn)在視覺語言時代下,如何設(shè)計一個更好可擴(kuò)展的視覺模型?
在ImageNet時代,新的視覺模型在ImageNet數(shù)據(jù)集得以驗(yàn)證,也造就了不斷有新的視覺模型涌現(xiàn)。但在視覺語言時代,新的視覺模型鮮為人見。
此外,基于現(xiàn)有常見視覺模型,在面對比ImageNet數(shù)據(jù)規(guī)模還大的情況下表現(xiàn)又是如何?研究團(tuán)隊(duì)們測試了幾種常見模型,包括純Transformer的ViT,純卷積網(wǎng)絡(luò)的ConvNeXt,以及混合卷
原文鏈接:字節(jié)發(fā)布視覺基礎(chǔ)模型ViTamin,多項(xiàng)任務(wù)實(shí)現(xiàn)SOTA,入選CVPR2024
聯(lián)系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破