Meta新研究挑戰(zhàn)CV領(lǐng)域基操:ViT根本不用patch,用像素做token效果更佳
AIGC動態(tài)歡迎閱讀
原標題:Meta新研究挑戰(zhàn)CV領(lǐng)域基操:ViT根本不用patch,用像素做token效果更佳
關(guān)鍵字:模型,局部性,報告,圖像,偏差
文章來源:新智元
內(nèi)容字數(shù):0字
內(nèi)容摘要:
新智元報道編輯:喬楊
【新智元導(dǎo)讀】下一代視覺模型會摒棄patch嗎?Meta AI最近發(fā)表的一篇論文就質(zhì)疑了視覺模型中局部關(guān)系的必要性。他們提出了PiT架構(gòu),讓Transformer直接學(xué)習(xí)單個像素而不是16×16的patch,結(jié)果在多個下游任務(wù)中取得了全面超越ViT模型的性能。正如token是文本處理的基本單位,patch也被默認是計算機視覺領(lǐng)域處理圖像的基本單位。
從CNN誕生,到結(jié)合Transformer架構(gòu)的ViT,雖然模型架構(gòu)發(fā)生了很大的變化,但有一點始終一致——
研究人員們都會把原始圖像先進行切割,模型輸入以patch作為基本單位。這種預(yù)處理方法非常有效,因此有廣泛的影響力,幾乎主導(dǎo)了整個CV領(lǐng)域。甚至于,Sora等視頻生成模型也沿用了這種方法。
Sora技術(shù)報告,訓(xùn)練時將視覺數(shù)據(jù)切割為patch
然而,Meta AI和阿姆斯特丹大學(xué)最近聯(lián)合發(fā)表了一篇文章,對這個CV領(lǐng)域的「基操」提出了有理有據(jù)的質(zhì)疑:圖像切成patch,真的有必要嗎?
https://arxiv.org/abs/2406.09415
首先我們可以做一個思維實驗,將圖片切成patch,究竟會對模型的哪方
原文鏈接:Meta新研究挑戰(zhàn)CV領(lǐng)域基操:ViT根本不用patch,用像素做token效果更佳
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響,領(lǐng)航中國新智能時代。
相關(guān)文章
