AIMv2

AIMv2 – 蘋果開源的多模態自回歸預訓練視覺模型

AIMv2是什么

AIMv2是蘋果公司推出的開源多模態自回歸預訓練視覺模型，通過深度融合圖像和文本信息，提高視覺模型的性能。它采用了一種創新的預訓練框架，將圖像切分為非重疊的圖像塊，并將文本拆分為子詞令牌，隨后將這兩種信息合并為一個統一的序列進行自回歸預訓練。這一方法簡化了訓練過程，并顯著增強了模型對多模態數據的理解能力。AIMv2提供多種參數規模的版本（如300M、600M、1.2B和2.7B），能夠適應從手機到PC的不同設備。在性能方面，AIMv2在多模態任務和傳統視覺任務中均表現優異。

AIMv2

AIMv2的主要功能

視覺問答（VQA）：AIMv2能夠提取圖像特征，并將其與問題文本結合，傳遞給大型語言模型（LLM），從而生成準確且符合上下文的回答。
指代表達理解：在RefCOCO和RefCOCO+等基準測試中，AIMv2能夠精確地將自然語言描述與圖像區域相對應。
圖像字幕生成：結合LLM，AIMv2能夠產生高質量的圖像描述。
多媒體檢索：AIMv2強大的多模態表示能力使其能夠高效處理多媒體檢索任務，支持圖像與文本的聯合檢索。
與大型語言模型（LLM）集成：AIMv2的架構與LLM驅動的多模態應用高度契合，能夠無縫融入各種多模態系統中。
零樣本適應性：AIMv2支持零樣本識別適應性，能夠在沒有額外訓練的情況下適應新的視覺任務。

AIMv2的技術原理

多模態自回歸預訓練框架：AIMv2將圖像分割為不重疊的小塊（Patch），將文本分解為子詞標記，隨后將兩者拼接為一個多模態序列。在預訓練階段，模型通過自回歸方式預測序列中的下一個元素，無論是圖像塊還是文本標記。這種設計使模型能夠同時學習視覺和語言模態之間的關系。
視覺編碼器與多模態解碼器：AIMv2的架構由視覺編碼器和多模態解碼器組成。視覺編碼器基于視覺Transformer（ViT）架構，負責處理圖像Patch，而多模態解碼器則利用因果自注意力機制，根據前文內容預測下一個元素。
損失函數設計：AIMv2為圖像和文本領域定義了各自的損失函數。文本損失采用標準的交叉熵損失，而圖像損失則使用像素級回歸損失，用于比較預測的圖像塊與真實圖像塊。整體目標是最小化文本損失和圖像損失的加權和，以平衡模型在兩個模態上的表現。
訓練數據與擴展性：AIMv2使用了大量的圖像和文本配對數據集進行預訓練，包括公開的DFN-2B和COYO數據集。訓練過程簡便高效，無需過大的批量大小或特殊的跨批次通信方法。隨著數據量和模型規模的增加，AIMv2的性能也不斷提升，展現出良好的可擴展性。
預訓練后的優化策略：AIMv2探索了多種訓練后策略，如高分辨率適配和原始分辨率微調。這些策略使模型能夠更好地處理不同分辨率和寬高比的圖像，進一步提升其在下游任務中的表現。