AIGC動態歡迎閱讀
原標題:Yann LeCun:ViT慢且效率低,實時圖像處理還得看卷積
關鍵字:卷積,人工智能,步幅,注意力,標桿
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:澤南、杜偉用卷積能做出一樣好的效果。在 Transformer 大一統的時代,計算機視覺的 CNN 方向還有研究的必要嗎?
今年年初,OpenAI 視頻大模型 Sora 帶火了 Vision Transformer(ViT)架構。此后,關于 ViT 與傳統卷積神經網絡(CNN)誰更厲害的爭論就沒有斷過。
近日,一直在社交媒體上活躍的圖靈獎得主、Meta 首席科學家 Yann LeCun 也加入了 ViT 與 CNN 之爭的討論。這件事的起因是 Comma.ai 的 CTO Harald Sch?fer 在展示自家最新研究。他(像最近很多 AI 學者一樣)cue 了 Yann LeCun 表示,雖然圖靈獎大佬認為純 ViT 并不實用,但我們最近把自己的壓縮器改成了純 ViT,沒有卷積,需要更長時間的訓練,但是效果非常不錯。比如左圖,被壓縮到了只有 224 字節,右邊是原始圖像。
只有 14×128,這對自動駕駛用的世界模型來說作用很大,意味著可以輸入大量數據用于訓練。在虛擬環境中訓練相比真實環境成本更低,在這里 Agent 需要根據策略進行訓練才能正常工作。雖然訓練更
原文鏈接:Yann LeCun:ViT慢且效率低,實時圖像處理還得看卷積
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...