今日Arxiv最熱NLP大模型論文：美團發布VisionLLaMA，為視覺生成和理解提供新基線

AIGC動態2年前 (2024)發布夕小瑤科技說

AIGC動態歡迎閱讀

原標題：今日Arxiv最熱NLP大模型論文：美團發布VisionLLaMA，為視覺生成和理解提供新基線
關鍵字：模型,任務,視覺,變換器,性能
文章來源：夕小瑤科技說
內容字數：8074字

內容摘要：

夕小瑤科技說原創作者 | 芒果引言：探索統一的視覺與語言模型架構在人工智能領域，統一的模型架構對于簡化模型設計、提高模型效率以及促進跨領域應用具有重要意義。近年來，大語言模型（Large Language Models, LLMs）在處理文本輸入方面取得了顯著的進展，其中基于變換器（Transformer）架構的LLaMA模型家族在眾多開源實現中脫穎而出。然而，一個引人關注的問題是，這些為文本輸入設計的變換器是否同樣適用于處理二維圖像？
對此，本研究提出了一個類似于LLaMA的視覺變換器——VisionLLaMA，它以平面（plain）和金字塔（pyramid）形式出現，專為視覺任務量身定制。VisionLLaMA是一個統一且通用的模型框架，適用于解決大多數視覺任務。通過典型的預訓練范式對其有效性進行了廣泛評估，并在圖像感知和尤其是圖像生成的下游任務中取得了顯著成果。在許多情況下，VisionLLaMA在性能上超越了先前的最先進視覺變換器。相信VisionLLaMA可以作為視覺生成和理解的強大新基線模型。
論文標題：VisionLLaMA: A Unified LLaMA Inter

原文鏈接：今日Arxiv最熱NLP大模型論文：美團發布VisionLLaMA，為視覺生成和理解提供新基線