AIGC動態歡迎閱讀
原標題:字節發布視覺基礎模型ViTamin,多項任務實現SOTA,入選CVPR2024
關鍵字:字節跳動,模型,視覺,準確率,特征
文章來源:量子位
內容字數:4381字
內容摘要:
允中 發自 凹非寺量子位 | 公眾號 QbitAI視覺語言模型屢屢出現新突破,但ViT仍是圖像編碼器的首選網絡結構。
字節提出新基礎模型——ViTamin,專為視覺語言時代設計。
在使用相同的數據集和訓練方案時,ViTamin在ImageNet零樣本準確率上比ViT提高了2.0%。
此外在分類、檢索、開放詞匯檢測和分割、多模態大語言模型等60個不同基準上都表現出了良好的結果。
當進一步擴展參數規模時,ViTamin-XL僅有436M參數,卻達到了82.9%的ImageNet零樣本準確率,超過了擁有十倍參數(4.4B)的EVA-E。
最終這一成果,入選計算機視覺頂會CVPR2024。
視覺語言時代新基準在視覺語言時代下,如何設計一個更好可擴展的視覺模型?
在ImageNet時代,新的視覺模型在ImageNet數據集得以驗證,也造就了不斷有新的視覺模型涌現。但在視覺語言時代,新的視覺模型鮮為人見。
此外,基于現有常見視覺模型,在面對比ImageNet數據規模還大的情況下表現又是如何?研究團隊們測試了幾種常見模型,包括純Transformer的ViT,純卷積網絡的ConvNeXt,以及混合卷
原文鏈接:字節發布視覺基礎模型ViTamin,多項任務實現SOTA,入選CVPR2024
聯系作者
文章來源:量子位
作者微信:QbitAI
作者簡介:追蹤人工智能新趨勢,關注科技行業新突破
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...