后Sora時(shí)代,CV從業(yè)者如何選擇模型?卷積還是ViT,監(jiān)督學(xué)習(xí)還是CLIP范式

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:后Sora時(shí)代,CV從業(yè)者如何選擇模型?卷積還是ViT,監(jiān)督學(xué)習(xí)還是CLIP范式
關(guān)鍵字:模型,研究者,遷移性,紋理,數(shù)據(jù)
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):7747字
內(nèi)容摘要:
機(jī)器之心報(bào)道
編輯:蛋醬如何衡量一個(gè)視覺模型?又如何選擇適合自己需求的視覺模型?MBZUAI和Meta的研究者給出了答案。一直以來,ImageNet 準(zhǔn)確率是評(píng)估模型性能的主要指標(biāo),也是它最初點(diǎn)燃了深度學(xué)習(xí)的火種。但對(duì)于今天的計(jì)算視覺領(lǐng)域來說,這一指標(biāo)正變得越來越不「夠用」。
因?yàn)橛?jì)算機(jī)視覺模型已變得越來越復(fù)雜,從早期的 ConvNets 到 Vision Transformers,可用模型的種類已大幅增加。同樣,訓(xùn)練范式也從 ImageNet 上的監(jiān)督訓(xùn)練發(fā)展到自監(jiān)督學(xué)習(xí)和像 CLIP 這樣的圖像 – 文本對(duì)訓(xùn)練。
ImageNet 并不能捕捉到不同架構(gòu)、訓(xùn)練范式和數(shù)據(jù)所產(chǎn)生的細(xì)微差別。如果僅根據(jù) ImageNet 準(zhǔn)確率來判斷,具有不同屬性的模型可能看起來很相似。當(dāng)模型開始過度擬合 ImageNet 的特異性并使準(zhǔn)確率達(dá)到飽和時(shí),這種局限性就會(huì)變得更加明顯。
CLIP 就是個(gè)值得一提的例子:盡管 CLIP 的 ImageNet 準(zhǔn)確率與 ResNet 相似,但其視覺編碼器的穩(wěn)健性和可遷移性要好得多。這引發(fā)了對(duì) CLIP 獨(dú)特優(yōu)勢(shì)的探索和研究,如果當(dāng)時(shí)僅從 ImageNet 指標(biāo)
原文鏈接:后Sora時(shí)代,CV從業(yè)者如何選擇模型?卷積還是ViT,監(jiān)督學(xué)習(xí)還是CLIP范式
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

粵公網(wǎng)安備 44011502001135號(hào)