ConvNet與Transformer誰更強(qiáng)?Meta評測4個(gè)領(lǐng)先視覺模型,LeCun轉(zhuǎn)贊
AIGC動態(tài)歡迎閱讀
原標(biāo)題:ConvNet與Transformer誰更強(qiáng)?Meta評測4個(gè)領(lǐng)先視覺模型,LeCun轉(zhuǎn)贊
關(guān)鍵字:模型,研究人員,紋理,數(shù)據(jù),形狀
文章來源:新智元
內(nèi)容字?jǐn)?shù):5522字
內(nèi)容摘要:
新智元報(bào)道編輯:桃子
【新智元導(dǎo)讀】當(dāng)前的視覺模型哪個(gè)更好?Meta團(tuán)隊(duì)最新一波研究來了。如何根據(jù)特定需求選擇視覺模型?
ConvNet/ViT、supervised/CLIP模型,在ImageNet之外的指標(biāo)上如何相互比較?
來自MABZUAI和Meta的研究人員發(fā)表的最新研究,在「非標(biāo)準(zhǔn)」指標(biāo)上全面比較了常見的視覺模型。
論文地址:https://arxiv.org/pdf/2311.09215.pdf
就連LeCun稱贊道,非常酷的研究,比較了相似大小的ConvNext和VIT架構(gòu),無論是在監(jiān)督模式下訓(xùn)練,還是使用CLIP方法進(jìn)行訓(xùn)練,并在各種屬性上進(jìn)行了比較。
超越ImageNet準(zhǔn)確性計(jì)算機(jī)視覺模型格局,變得越來越多樣復(fù)雜。
從早期的ConvNets到Vision Transformers的演進(jìn),可用模型的種類在不斷擴(kuò)展。
類似地,訓(xùn)練范式已經(jīng)從ImageNet上的監(jiān)督訓(xùn)練,發(fā)展到自監(jiān)督學(xué)習(xí)、像CLIP這樣的圖像文本對訓(xùn)練。
在標(biāo)志著進(jìn)步的同時(shí),這種選擇的式增長給從業(yè)者帶來了重大挑戰(zhàn):如何選擇適合自己的目標(biāo)模型?
一直以來,ImageNet準(zhǔn)確率一直是評估模型性能的主要
原文鏈接:ConvNet與Transformer誰更強(qiáng)?Meta評測4個(gè)領(lǐng)先視覺模型,LeCun轉(zhuǎn)贊
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀(jì)元。重點(diǎn)關(guān)注人工智能、機(jī)器人等前沿領(lǐng)域發(fā)展,關(guān)注人機(jī)融合、人工智能和機(jī)器人對人類社會與文明進(jìn)化的影響,領(lǐng)航中國新智能時(shí)代。