全面超越ViT,美團(tuán)、浙大等提出視覺任務(wù)統(tǒng)一架構(gòu)VisionLLAMA
AIGC動態(tài)歡迎閱讀
原標(biāo)題:全面超越ViT,美團(tuán)、浙大等提出視覺任務(wù)統(tǒng)一架構(gòu)VisionLLAMA
關(guān)鍵字:本文,模型,性能,視覺,方法
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):16304字
內(nèi)容摘要:
機(jī)器之心專欄
機(jī)器之心編輯部半年多來,Meta 開源的 LLaMA 架構(gòu)在 LLM 中經(jīng)受了考驗(yàn)并大獲成功(訓(xùn)練穩(wěn)定、容易做 scaling)。
沿襲 ViT 的研究思路,我們能否借助創(chuàng)新性的 LLaMA 架構(gòu),真正實(shí)現(xiàn)語言和圖像的架構(gòu)統(tǒng)一?
在這一命題上,最近的一項(xiàng)研究 VisionLLaMA 取得了進(jìn)展。VisionLLaMA 在圖像生成(包含 Sora 依賴的底層的 DIT)和理解(分類、分割、檢測、自監(jiān)督)等多個主流任務(wù)上相較于原 ViT 類方法提升顯著。論文標(biāo)題:VisionLLaMA: A Unified LLaMA Interface for Vision Tasks
論文地址:https://arxiv.org/abs/2403.00522
代碼地址:https://github.com/Meituan-AutoML/VisionLLaMA
該研究在統(tǒng)一圖像和語言架構(gòu)方面的嘗試,可以復(fù)用 LLM 社區(qū)在 LLaMA 上的訓(xùn)練(穩(wěn)定且有效的 scaling)、部署等一系列成果。
研究背景
大語言模型是當(dāng)前學(xué)術(shù)界研究的熱點(diǎn),其中,LLaMA 是最具影響力和代表性的工作之一,
原文鏈接:全面超越ViT,美團(tuán)、浙大等提出視覺任務(wù)統(tǒng)一架構(gòu)VisionLLAMA
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:almosthuman2014
作者簡介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺