字節提出視覺基礎模型ViTamin，多項任務實現SOTA，入選CVPR2024

AIGC動態1年前 (2024)發布算法邦

AIGC動態歡迎閱讀

原標題：字節提出視覺基礎模型ViTamin，多項任務實現SOTA，入選CVPR2024
關鍵字：字節跳動,模型,侵權,視覺,準確率
文章來源：算法邦
內容字數：4384字

內容摘要：

文章轉載自公眾號：量子位，本文只做學術/技術分享，如有侵權，聯系刪文。
視覺語言模型屢屢出現新突破，但ViT仍是圖像編碼器的首選網絡結構。
字節提出新基礎模型——ViTamin，專為視覺語言時代設計。
在使用相同的數據集和訓練方案時，ViTamin在ImageNet零樣本準確率上比ViT提高了2.0%。
此外在分類、檢索、開放詞匯檢測和分割、多模態大語言模型等60個不同基準上都表現出了良好的結果。
當進一步擴展參數規模時，ViTamin-XL僅有436M參數，卻達到了82.9%的ImageNet零樣本準確率，超過了擁有十倍參數（4.4B）的EVA-E。
最終這一成果，入選計算機視覺頂會CVPR2024。
01視覺語言時代新基準在視覺語言時代下，如何設計一個更好可擴展的視覺模型？
在ImageNet時代，新的視覺模型在ImageNet數據集得以驗證，也造就了不斷有新的視覺模型涌現。但在視覺語言時代，新的視覺模型鮮為人見。
此外，基于現有常見視覺模型，在面對比ImageNet數據規模還大的情況下表現又是如何？研究團隊們測試了幾種常見模型，包括純Transformer的ViT，純卷積網絡的C

原文鏈接：字節提出視覺基礎模型ViTamin，多項任務實現SOTA，入選CVPR2024