Meta新研究挑戰(zhàn)CV領(lǐng)域基操：ViT根本不用patch，用像素做token效果更佳

AIGC動態(tài)1年前 (2024)發(fā)布新智元

AIGC動態(tài)歡迎閱讀

原標題：Meta新研究挑戰(zhàn)CV領(lǐng)域基操：ViT根本不用patch，用像素做token效果更佳
關(guān)鍵字：模型,局部性,報告,圖像,偏差
文章來源：新智元
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

新智元報道編輯：喬楊
【新智元導讀】下一代視覺模型會摒棄patch嗎？Meta AI最近發(fā)表的一篇論文就質(zhì)疑了視覺模型中局部關(guān)系的必要性。他們提出了PiT架構(gòu)，讓Transformer直接學習單個像素而不是16×16的patch，結(jié)果在多個下游任務中取得了全面超越ViT模型的性能。正如token是文本處理的基本單位，patch也被默認是計算機視覺領(lǐng)域處理圖像的基本單位。
從CNN誕生，到結(jié)合Transformer架構(gòu)的ViT，雖然模型架構(gòu)發(fā)生了很大的變化，但有一點始終一致——
研究人員們都會把原始圖像先進行切割，模型輸入以patch作為基本單位。這種預處理方法非常有效，因此有廣泛的影響力，幾乎主導了整個CV領(lǐng)域。甚至于，Sora等視頻生成模型也沿用了這種方法。
Sora技術(shù)報告，訓練時將視覺數(shù)據(jù)切割為patch
然而，Meta AI和阿姆斯特丹大學最近聯(lián)合發(fā)表了一篇文章，對這個CV領(lǐng)域的「基操」提出了有理有據(jù)的質(zhì)疑：圖像切成patch，真的有必要嗎？
https://arxiv.org/abs/2406.09415
首先我們可以做一個思維實驗，將圖片切成patch，究竟會對模型的哪方

原文鏈接：Meta新研究挑戰(zhàn)CV領(lǐng)域基操：ViT根本不用patch，用像素做token效果更佳

聯(lián)系作者

文章來源：新智元
作者微信：AI_era
作者簡介：智能+中國主平臺，致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展，關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響，領(lǐng)航中國新智能時代。

閱讀原文

# AIGC動態(tài)# 偏差 # 圖像 # 局部性 # 報告 # 模型

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載。

暫無評論

暫無評論...

Meta新研究挑戰(zhàn)CV領(lǐng)域基操：ViT根本不用patch，用像素做token效果更佳

AIGC動態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

18.98 萬！史上最便宜的寶馬 MINI，還是賣貴了

第一批正在被AIGC重置的行業(yè)有話說

相關(guān)文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點

Meta新研究挑戰(zhàn)CV領(lǐng)域基操：ViT根本不用patch，用像素做token效果更佳

AIGC動態(tài)歡迎閱讀

內(nèi)容摘要：

聯(lián)系作者

18.98 萬！史上最便宜的寶馬 MINI，還是賣貴了

第一批正在被AIGC重置的行業(yè)有話說

相關(guān)文章

暫無評論

ChatGPT

畢業(yè)論文生成器

AIGC熱點

Meta新研究挑戰(zhàn)CV領(lǐng)域基操：ViT根本不用patch，用像素做token效果更佳

18.98 萬！史上最便宜的寶馬 MINI，還是賣貴了