全面超越ViT，美團(tuán)、浙大等提出視覺任務(wù)統(tǒng)一架構(gòu)VisionLLAMA

AIGC動態(tài)1年前 (2024)發(fā)布機(jī)器之心

AIGC動態(tài)歡迎閱讀

原標(biāo)題：全面超越ViT，美團(tuán)、浙大等提出視覺任務(wù)統(tǒng)一架構(gòu)VisionLLAMA
關(guān)鍵字：本文,模型,性能,視覺,方法
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：16304字

內(nèi)容摘要：

機(jī)器之心專欄
機(jī)器之心編輯部半年多來，Meta 開源的 LLaMA 架構(gòu)在 LLM 中經(jīng)受了考驗(yàn)并大獲成功（訓(xùn)練穩(wěn)定、容易做 scaling）。
沿襲 ViT 的研究思路，我們能否借助創(chuàng)新性的 LLaMA 架構(gòu)，真正實(shí)現(xiàn)語言和圖像的架構(gòu)統(tǒng)一？
在這一命題上，最近的一項(xiàng)研究 VisionLLaMA 取得了進(jìn)展。VisionLLaMA 在圖像生成（包含 Sora 依賴的底層的 DIT）和理解（分類、分割、檢測、自監(jiān)督）等多個主流任務(wù)上相較于原 ViT 類方法提升顯著。論文標(biāo)題：VisionLLaMA: A Unified LLaMA Interface for Vision Tasks
論文地址：https://arxiv.org/abs/2403.00522
代碼地址：https://github.com/Meituan-AutoML/VisionLLaMA
該研究在統(tǒng)一圖像和語言架構(gòu)方面的嘗試，可以復(fù)用 LLM 社區(qū)在 LLaMA 上的訓(xùn)練（穩(wěn)定且有效的 scaling）、部署等一系列成果。
研究背景
大語言模型是當(dāng)前學(xué)術(shù)界研究的熱點(diǎn)，其中，LLaMA 是最具影響力和代表性的工作之一，

原文鏈接：全面超越ViT，美團(tuán)、浙大等提出視覺任務(wù)統(tǒng)一架構(gòu)VisionLLAMA