以僅15M的圖文對數據用于圖文對齊,實現了在視覺理解、生成、編輯等多元任務上的出色表現。
原標題:理解生成協同促進?華為諾亞提出ILLUME,15M數據實現多模態理解生成一體化
文章來源:機器之心
內容字數:4469字
華為諾亞方舟實驗室提出ILLUME:一款高效的多模態理解與生成一體化大模型
機器之心報道,華為諾亞方舟實驗室近期提出了一種名為ILLUME的統一多模態大模型,該模型致力于將視覺理解和生成能力融合到同一個框架中,實現了對多模態任務的全新詮釋。ILLUME以LLM為核心,采用“連續圖像輸入+離散圖像輸出”的架構,在僅使用約15M的圖文對數據的情況下,便在視覺理解、生成和編輯等多種任務上取得了優異的表現,其性能甚至可以與專用單任務模型相媲美。
ILLUME 的主要貢獻
1. 高效的訓練方法:ILLUME在保持架構可擴展性和泛化性的前提下,通過合理的視覺詞表、訓練策略和數據配比策略,僅用少量數據實現了在多種視覺任務上的出色表現,超越了現有許多統一多模態模型,如Chameleon、Show-O和Janus。
2. 自提升式多模態對齊策略:ILLUME提出了一種創新的自提升多模態對齊策略。該策略通過讓模型對自身生成的負樣本進行內省式評估,實現理解和生成能力的協同進化。生成能力可以幫助模型更準確地理解圖像,而理解能力則能反過來提升模型的生成精度,避免錯誤。
ILLUME 的關鍵設計
1. 語義特征重建的視覺詞表:ILLUME采用語義特征重建的方式構造視覺詞表,直接在高層語義空間中完成圖文對齊的特征學習,這與傳統基于VQGAN的視覺詞表方法相比,能夠顯著加速模型的預訓練過程,并提高圖文對齊的效率。
2. 三階段訓練策略:ILLUME采用三階段訓練策略:第一階段進行圖像重建,初始化模型參數并對齊輸入輸出模式;第二階段進行圖文對齊預訓練;第三階段對高質量數據進行微調,以提升模型在多種視覺文本任務上的性能。
ILLUME 的自提升多模態對齊策略
該策略包含三個步驟:首先,模型自生成圖像數據;其次,對生成的圖像進行多維度評估,包括物體、數量、顏色和空間關系等;最后,將評估數據重新格式化并加入到第三階段訓練中,從而強化模型的理解和生成能力。
ILLUME 的實驗結果
ILLUME在多模態理解任務上取得了SOTA水平,尤其在文檔理解方面表現突出;在文圖生成任務上取得了與現有模型相當的結果;并且能夠有效處理圖像編輯任務,例如物體刪除、風格遷移和圖像補充等。
總結
ILLUME 作為一款高效的多模態理解與生成一體化大模型,通過巧妙的架構設計、訓練策略和自提升式多模態對齊策略,在數據效率和模型性能方面都取得了顯著的突破。其在多模態理解、生成和編輯任務上的出色表現,為構建更強大、更通用的多模態人工智能系統奠定了堅實的基礎。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺