9大基準全面領先，性能暴漲10.8%！視覺價值模型VisVM成「圖像描述」新寵

AIGC動態11個月前發布新智元

415 0 0

原標題：9大基準全面領先，性能暴漲10.8%！視覺價值模型VisVM成「圖像描述」新寵
文章來源：新智元
內容字數：4752字

視覺價值模型VisVM：提升多模態視覺語言模型的圖像描述質量

本文總結了馬里蘭大學和微軟研究團隊提出的視覺價值模型（VisVM）及其在提升多模態視覺語言模型（VLM）性能方面的研究成果。VisVM通過推理時搜索策略，顯著提高了圖像描述的準確性和細節豐富性，并有效減少了模型的幻覺現象。

VisVM的工作原理
VisVM的核心思想是利用一個價值網絡來指導VLM在推理階段進行搜索。該價值網絡通過對逐步生成的描述性標題提供獎勵信號，從而引導模型生成更優質的描述。訓練過程中，VisVM利用VLM自身生成的多個多樣化響應，并結合CLIP模型計算句子與圖像的相似度作為獎勵信號，最終形成用于訓練VisVM的四元組數據。VisVM采用強化學習中的時序差分學習作為損失函數，能夠評估當前句子與圖像的匹配程度，并預測其對未來句子生成的影響，從而提供長期價值信號。
推理階段搜索過程
在推理階段，VisVM引導VLM進行迭代搜索：首先生成多個句子候選；然后，VisVM評估這些候選句子與圖像內容的匹配度及對未來句子的潛在影響（包括幻覺和細節程度）；最后，選擇最佳句子繼續生成，最終構建完整且高質量的響應序列。
實驗結果與分析
實驗結果表明，VisVM引導的搜索在圖像描述質量方面顯著優于其他方法，例如CLIP-PRM指導搜索、Best-of-N選擇和貪婪解碼。人類評估和GPT-4評估均顯示VisVM生成的描述細節更豐富，幻覺更少，更受評估者青睞。VisVM甚至能夠捕捉到人類標注者都難以察覺的細節，例如擋風玻璃上的水滴。在幻覺基準測試中，VisVM也取得了顯著優于其他方法的效果。
此外，研究還驗證了VisVM引導搜索的擴展性（scaling law）：隨著搜索步驟的增加，模型性能持續提升，且VisVM的提升速度更快，計算效率更高。這表明增加推理時間計算量能顯著增強VLM的視覺理解能力。
自我訓練與性能提升
研究人員利用VisVM生成高質量的圖像描述作為監督微調（SFT）數據，對基礎模型LLaVA-Next-Mistral-7B進行訓練。結果顯示，VisVM引導的自我訓練使模型性能平均提升了10.8%，尤其在視覺理解和推理能力方面有顯著提高。這表明VisVM在自我訓練框架中具有巨大潛力，僅通過在語言空間中進行高質量搜索和微調，就能顯著提升原始VLM的性能。

總而言之，VisVM通過巧妙的推理時搜索策略，有效提升了多模態視覺語言模型的圖像描述質量，減少了幻覺，并展現了在自我訓練中的巨大潛力，為VLM的發展提供了新的方向。

聯系作者

文章來源：新智元
作者微信：
作者簡介：智能+中國主平臺，致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展，關注人機融合、人工智能和機器人對人類社會與文明進化的影響，領航中國新智能時代。

閱讀原文

# AIGC動態 # 108%性能提升 # AI圖像理解 # 圖像描述生成 # 性能基準測試 # 視覺價值模型

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

国产精品亚洲mnbav网站_成人午夜亚洲精品无码网站_日韩va亚洲va欧洲va国产_亚洲欧洲精品成人久久曰影片

9大基準全面領先，性能暴漲10.8%！視覺價值模型VisVM成「圖像描述」新寵

視覺價值模型VisVM：提升多模態視覺語言模型的圖像描述質量

VisVM的工作原理

推理階段搜索過程

實驗結果與分析

自我訓練與性能提升

聯系作者

AAAI 2025 | 用于韋伯區位問題的去奇異性次梯度方法

中國發表AI論文數量，全球第一！這些互聯網大廠功不可沒

相關文章

暫無評論

ChatGPT

玩虛擬模特？