AIGC動態歡迎閱讀
原標題:后Sora時代,CV從業者如何選擇模型?卷積還是ViT,監督學習還是CLIP范式
關鍵字:模型,研究者,遷移性,紋理,數據
文章來源:機器之心
內容字數:7747字
內容摘要:
機器之心報道
編輯:蛋醬如何衡量一個視覺模型?又如何選擇適合自己需求的視覺模型?MBZUAI和Meta的研究者給出了答案。一直以來,ImageNet 準確率是評估模型性能的主要指標,也是它最初點燃了深度學習的火種。但對于今天的計算視覺領域來說,這一指標正變得越來越不「夠用」。
因為計算機視覺模型已變得越來越復雜,從早期的 ConvNets 到 Vision Transformers,可用模型的種類已大幅增加。同樣,訓練范式也從 ImageNet 上的監督訓練發展到自監督學習和像 CLIP 這樣的圖像 – 文本對訓練。
ImageNet 并不能捕捉到不同架構、訓練范式和數據所產生的細微差別。如果僅根據 ImageNet 準確率來判斷,具有不同屬性的模型可能看起來很相似。當模型開始過度擬合 ImageNet 的特異性并使準確率達到飽和時,這種局限性就會變得更加明顯。
CLIP 就是個值得一提的例子:盡管 CLIP 的 ImageNet 準確率與 ResNet 相似,但其視覺編碼器的穩健性和可遷移性要好得多。這引發了對 CLIP 獨特優勢的探索和研究,如果當時僅從 ImageNet 指標
原文鏈接:后Sora時代,CV從業者如何選擇模型?卷積還是ViT,監督學習還是CLIP范式
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...