后Sora時代，CV從業者如何選擇模型？卷積還是ViT，監督學習還是CLIP范式

AIGC動態1年前 (2024)發布機器之心

AIGC動態歡迎閱讀

原標題：后Sora時代，CV從業者如何選擇模型？卷積還是ViT，監督學習還是CLIP范式
關鍵字：模型,研究者,遷移性,紋理,數據
文章來源：機器之心
內容字數：7747字

內容摘要：

機器之心報道
編輯：蛋醬如何衡量一個視覺模型？又如何選擇適合自己需求的視覺模型？MBZUAI和Meta的研究者給出了答案。一直以來，ImageNet 準確率是評估模型性能的主要指標，也是它最初點燃了深度學習的火種。但對于今天的計算視覺領域來說，這一指標正變得越來越不「夠用」。
因為計算機視覺模型已變得越來越復雜，從早期的 ConvNets 到 Vision Transformers，可用模型的種類已大幅增加。同樣，訓練范式也從 ImageNet 上的監督訓練發展到自監督學習和像 CLIP 這樣的圖像 – 文本對訓練。
ImageNet 并不能捕捉到不同架構、訓練范式和數據所產生的細微差別。如果僅根據 ImageNet 準確率來判斷，具有不同屬性的模型可能看起來很相似。當模型開始過度擬合 ImageNet 的特異性并使準確率達到飽和時，這種局限性就會變得更加明顯。
CLIP 就是個值得一提的例子：盡管 CLIP 的 ImageNet 準確率與 ResNet 相似，但其視覺編碼器的穩健性和可遷移性要好得多。這引發了對 CLIP 獨特優勢的探索和研究，如果當時僅從 ImageNet 指標

原文鏈接：后Sora時代，CV從業者如何選擇模型？卷積還是ViT，監督學習還是CLIP范式