Yann LeCun:ViT慢且效率低,實時圖像處理還得看卷積
AIGC動態(tài)歡迎閱讀
原標(biāo)題:Yann LeCun:ViT慢且效率低,實時圖像處理還得看卷積
關(guān)鍵字:卷積,人工智能,步幅,注意力,標(biāo)桿
文章來源:機器之心
內(nèi)容字數(shù):0字
內(nèi)容摘要:
機器之心報道
編輯:澤南、杜偉用卷積能做出一樣好的效果。在 Transformer 大一統(tǒng)的時代,計算機視覺的 CNN 方向還有研究的必要嗎?
今年年初,OpenAI 視頻大模型 Sora 帶火了 Vision Transformer(ViT)架構(gòu)。此后,關(guān)于 ViT 與傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)(CNN)誰更厲害的爭論就沒有斷過。
近日,一直在社交媒體上活躍的圖靈獎得主、Meta 首席科學(xué)家 Yann LeCun 也加入了 ViT 與 CNN 之爭的討論。這件事的起因是 Comma.ai 的 CTO Harald Sch?fer 在展示自家最新研究。他(像最近很多 AI 學(xué)者一樣)cue 了 Yann LeCun 表示,雖然圖靈獎大佬認為純 ViT 并不實用,但我們最近把自己的壓縮器改成了純 ViT,沒有卷積,需要更長時間的訓(xùn)練,但是效果非常不錯。比如左圖,被壓縮到了只有 224 字節(jié),右邊是原始圖像。
只有 14×128,這對自動駕駛用的世界模型來說作用很大,意味著可以輸入大量數(shù)據(jù)用于訓(xùn)練。在虛擬環(huán)境中訓(xùn)練相比真實環(huán)境成本更低,在這里 Agent 需要根據(jù)策略進行訓(xùn)練才能正常工作。雖然訓(xùn)練更
原文鏈接:Yann LeCun:ViT慢且效率低,實時圖像處理還得看卷積
聯(lián)系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺