AIGC動態歡迎閱讀
原標題:全面超越ViT,美團、浙大等提出視覺任務統一架構VisionLLAMA
關鍵字:本文,模型,性能,視覺,方法
文章來源:機器之心
內容字數:16304字
內容摘要:
機器之心專欄
機器之心編輯部半年多來,Meta 開源的 LLaMA 架構在 LLM 中經受了考驗并大獲成功(訓練穩定、容易做 scaling)。
沿襲 ViT 的研究思路,我們能否借助創新性的 LLaMA 架構,真正實現語言和圖像的架構統一?
在這一命題上,最近的一項研究 VisionLLaMA 取得了進展。VisionLLaMA 在圖像生成(包含 Sora 依賴的底層的 DIT)和理解(分類、分割、檢測、自監督)等多個主流任務上相較于原 ViT 類方法提升顯著。論文標題:VisionLLaMA: A Unified LLaMA Interface for Vision Tasks
論文地址:https://arxiv.org/abs/2403.00522
代碼地址:https://github.com/Meituan-AutoML/VisionLLaMA
該研究在統一圖像和語言架構方面的嘗試,可以復用 LLM 社區在 LLaMA 上的訓練(穩定且有效的 scaling)、部署等一系列成果。
研究背景
大語言模型是當前學術界研究的熱點,其中,LLaMA 是最具影響力和代表性的工作之一,
原文鏈接:全面超越ViT,美團、浙大等提出視覺任務統一架構VisionLLAMA
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...