Yann LeCun：ViT慢且效率低，實時圖像處理還得看卷積

AIGC動態(tài)歡迎閱讀

原標(biāo)題：Yann LeCun：ViT慢且效率低，實時圖像處理還得看卷積
關(guān)鍵字：卷積,人工智能,步幅,注意力,標(biāo)桿
文章來源：機器之心
內(nèi)容字數(shù)：0字

內(nèi)容摘要：

機器之心報道
編輯：澤南、杜偉用卷積能做出一樣好的效果。在 Transformer 大一統(tǒng)的時代，計算機視覺的 CNN 方向還有研究的必要嗎？
今年年初，OpenAI 視頻大模型 Sora 帶火了 Vision Transformer（ViT）架構(gòu)。此后，關(guān)于 ViT 與傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)（CNN）誰更厲害的爭論就沒有斷過。
近日，一直在社交媒體上活躍的圖靈獎得主、Meta 首席科學(xué)家 Yann LeCun 也加入了 ViT 與 CNN 之爭的討論。這件事的起因是 Comma.ai 的 CTO Harald Sch?fer 在展示自家最新研究。他（像最近很多 AI 學(xué)者一樣）cue 了 Yann LeCun 表示，雖然圖靈獎大佬認為純 ViT 并不實用，但我們最近把自己的壓縮器改成了純 ViT，沒有卷積，需要更長時間的訓(xùn)練，但是效果非常不錯。比如左圖，被壓縮到了只有 224 字節(jié)，右邊是原始圖像。
只有 14×128，這對自動駕駛用的世界模型來說作用很大，意味著可以輸入大量數(shù)據(jù)用于訓(xùn)練。在虛擬環(huán)境中訓(xùn)練相比真實環(huán)境成本更低，在這里 Agent 需要根據(jù)策略進行訓(xùn)練才能正常工作。雖然訓(xùn)練更

原文鏈接：Yann LeCun：ViT慢且效率低，實時圖像處理還得看卷積