VITRON

VITRON – Skywork AI 聯合新加坡國立、南洋理工推出的像素級視覺大型語言模型

VITRON是什么

VITRON是由Skywork AI、新加坡國立大學和南洋理工大合開發的一款像素級視覺大型語言模型（LLM），具備全面理解和處理靜態圖像與動態視頻的能力。該模型能夠實現對圖像和視頻的理解、生成、分割和編輯等多種功能。VITRON結合了前端的視覺編碼器與后端的視覺專家系統，支持從視覺理解到視覺生成的多項任務。通過混合方法的信息傳遞，VITRON結合離散文本指令和連續信號嵌入，確保功能調用的精確性，并設計了跨任務協同模塊，增強不同視覺任務之間的協作效果。

VITRON

VITRON的主要功能

視覺理解：包括圖像和視頻的問答、指代表達和視覺推理等任務。
視覺生成：支持從文本生成圖像和視頻的功能。
視覺分割：涉及圖像和視頻的分割任務，例如實例分割和全景分割。
視覺編輯：允許對圖像和視頻進行編輯，包括添加、替換、移除和顏色調整等操作。
交互式用戶輸入：能夠處理用戶的點擊、框選、繪制多邊形和涂鴉等互動輸入。

VITRON的技術原理

編碼器-LLM-解碼器架構：采用常見的編碼器-大型語言模型（LLM）-解碼器結構，編碼器負責處理圖像和視頻輸入，LLM進行語義理解與決策，而解碼器則執行具體的視覺任務。
前端視覺-語言編碼：使用CLIP ViT-L/14@336px作為圖像和視頻的編碼器，針對每一幀視頻進行平均池化，獲取整體的時間特征表示。區域像素感知視覺提取器則作為草圖編碼器，處理用戶的交互輸入。
核心LLM：選用Vicuna（7B，版本1.5）作為核心LLM，處理來自語言和視覺模態的輸入，執行語義理解和推理，生成決策。
后端視覺專家：集成多個單一視覺專家，包括GLIGEN（用于圖像生成和編輯）、SEEM（用于圖像和視頻分割）、ZeroScope和I2VGen-XL（用于文本到視頻和圖像到視頻任務）、StableVideo（用于視頻編輯）等。
混合方法指令傳遞：推出了一種創新的混合方式，基于離散文本指令和連續信號特征嵌入，確保LLM的決策能夠準確地傳遞給后端模塊。