AIGC動態歡迎閱讀
原標題:字節提出視覺基礎模型ViTamin,多項任務實現SOTA,入選CVPR2024
關鍵字:字節跳動,模型,侵權,視覺,準確率
文章來源:算法邦
內容字數:4384字
內容摘要:
文章轉載自公眾號:量子位,本文只做學術/技術分享,如有侵權,聯系刪文。
視覺語言模型屢屢出現新突破,但ViT仍是圖像編碼器的首選網絡結構。
字節提出新基礎模型——ViTamin,專為視覺語言時代設計。
在使用相同的數據集和訓練方案時,ViTamin在ImageNet零樣本準確率上比ViT提高了2.0%。
此外在分類、檢索、開放詞匯檢測和分割、多模態大語言模型等60個不同基準上都表現出了良好的結果。
當進一步擴展參數規模時,ViTamin-XL僅有436M參數,卻達到了82.9%的ImageNet零樣本準確率,超過了擁有十倍參數(4.4B)的EVA-E。
最終這一成果,入選計算機視覺頂會CVPR2024。
01視覺語言時代新基準在視覺語言時代下,如何設計一個更好可擴展的視覺模型?
在ImageNet時代,新的視覺模型在ImageNet數據集得以驗證,也造就了不斷有新的視覺模型涌現。但在視覺語言時代,新的視覺模型鮮為人見。
此外,基于現有常見視覺模型,在面對比ImageNet數據規模還大的情況下表現又是如何?研究團隊們測試了幾種常見模型,包括純Transformer的ViT,純卷積網絡的C
原文鏈接:字節提出視覺基礎模型ViTamin,多項任務實現SOTA,入選CVPR2024
聯系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點關注模型與應用。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...