原標題:9大基準全面領先,性能暴漲10.8%!視覺價值模型VisVM成「圖像描述」新寵
文章來源:新智元
內容字數:4752字
視覺價值模型VisVM:提升多模態視覺語言模型的圖像描述質量
本文總結了馬里蘭大學和微軟研究團隊提出的視覺價值模型(VisVM)及其在提升多模態視覺語言模型(VLM)性能方面的研究成果。VisVM通過推理時搜索策略,顯著提高了圖像描述的準確性和細節豐富性,并有效減少了模型的幻覺現象。
VisVM的工作原理
VisVM的核心思想是利用一個價值網絡來指導VLM在推理階段進行搜索。該價值網絡通過對逐步生成的描述性標題提供獎勵信號,從而引導模型生成更優質的描述。訓練過程中,VisVM利用VLM自身生成的多個多樣化響應,并結合CLIP模型計算句子與圖像的相似度作為獎勵信號,最終形成用于訓練VisVM的四元組數據。VisVM采用強化學習中的時序差分學習作為損失函數,能夠評估當前句子與圖像的匹配程度,并預測其對未來句子生成的影響,從而提供長期價值信號。
推理階段搜索過程
在推理階段,VisVM引導VLM進行迭代搜索:首先生成多個句子候選;然后,VisVM評估這些候選句子與圖像內容的匹配度及對未來句子的潛在影響(包括幻覺和細節程度);最后,選擇最佳句子繼續生成,最終構建完整且高質量的響應序列。
實驗結果與分析
實驗結果表明,VisVM引導的搜索在圖像描述質量方面顯著優于其他方法,例如CLIP-PRM指導搜索、Best-of-N選擇和貪婪解碼。人類評估和GPT-4評估均顯示VisVM生成的描述細節更豐富,幻覺更少,更受評估者青睞。VisVM甚至能夠捕捉到人類標注者都難以察覺的細節,例如擋風玻璃上的水滴。在幻覺基準測試中,VisVM也取得了顯著優于其他方法的效果。
此外,研究還驗證了VisVM引導搜索的擴展性(scaling law):隨著搜索步驟的增加,模型性能持續提升,且VisVM的提升速度更快,計算效率更高。這表明增加推理時間計算量能顯著增強VLM的視覺理解能力。
自我訓練與性能提升
研究人員利用VisVM生成高質量的圖像描述作為監督微調(SFT)數據,對基礎模型LLaVA-Next-Mistral-7B進行訓練。結果顯示,VisVM引導的自我訓練使模型性能平均提升了10.8%,尤其在視覺理解和推理能力方面有顯著提高。這表明VisVM在自我訓練框架中具有巨大潛力,僅通過在語言空間中進行高質量搜索和微調,就能顯著提升原始VLM的性能。
總而言之,VisVM通過巧妙的推理時搜索策略,有效提升了多模態視覺語言模型的圖像描述質量,減少了幻覺,并展現了在自我訓練中的巨大潛力,為VLM的發展提供了新的方向。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。