ConvNet與Transformer誰更強？Meta評測4個領先視覺模型，LeCun轉贊

AIGC動態2年前 (2024)發布新智元

AIGC動態歡迎閱讀

原標題：ConvNet與Transformer誰更強？Meta評測4個領先視覺模型，LeCun轉贊
關鍵字：模型,研究人員,紋理,數據,形狀
文章來源：新智元
內容字數：5522字

內容摘要：

新智元報道編輯：桃子
【新智元導讀】當前的視覺模型哪個更好？Meta團隊最新一波研究來了。如何根據特定需求選擇視覺模型？
ConvNet/ViT、supervised/CLIP模型，在ImageNet之外的指標上如何相互比較？
來自MABZUAI和Meta的研究人員發表的最新研究，在「非標準」指標上全面比較了常見的視覺模型。
論文地址：https://arxiv.org/pdf/2311.09215.pdf
就連LeCun稱贊道，非常酷的研究，比較了相似大小的ConvNext和VIT架構，無論是在監督模式下訓練，還是使用CLIP方法進行訓練，并在各種屬性上進行了比較。
超越ImageNet準確性計算機視覺模型格局，變得越來越多樣復雜。
從早期的ConvNets到Vision Transformers的演進，可用模型的種類在不斷擴展。
類似地，訓練范式已經從ImageNet上的監督訓練，發展到自監督學習、像CLIP這樣的圖像文本對訓練。
在標志著進步的同時，這種選擇的式增長給從業者帶來了重大挑戰：如何選擇適合自己的目標模型？
一直以來，ImageNet準確率一直是評估模型性能的主要

原文鏈接：ConvNet與Transformer誰更強？Meta評測4個領先視覺模型，LeCun轉贊