有效緩解 LVLMs 中的幻覺現象
淘天集團提出Token Preference Optimization (TPO)方法緩解視覺大模型幻覺
本文介紹了淘天集團未來生活實驗室團隊在緩解大型視覺語言模型(LVLMs)幻覺問題上取得的最新進展。團隊提出了一種創新的令牌級偏好對齊方法——Token Preference Optimization (TPO),該方法通過自校準的視覺錨定獎勵信號,有效提升了模型的優化效率和自動化水平,并在多個基準測試中取得了顯著效果。
1. 現有方法的不足與TPO的優勢
現有的直接偏好優化(DPO)方法在緩解LVLMs幻覺方面取得了進展,但仍存在兩個主要問題:缺乏高效且可擴展的令牌級獎勵信號,以及在訓練過程中忽略了視覺錨定tokens的重要性。TPO方法有效解決了這些問題。它能夠自動識別視覺錨定tokens,無需人工細粒度標注,并自動分配反映token對圖像信息依賴程度的令牌級獎勵。
2. TPO方法詳解
TPO方法的核心在于自校準的視覺錨定獎勵生成機制。該機制通過比較圖像加噪前后每個生成token的概率差異來衡量其視覺錨定程度。通過引入一個自校準過程,為正負樣本分配相應的獎勵,并優化所有視覺錨定tokens的視覺信息關聯度。最終,TPO將視覺錨定獎勵整合到DPO框架中,形成了一個新的優化目標。
3. 實驗結果與分析
實驗結果表明,TPO在多個幻覺評測集和通用評測集上均顯著優于現有的偏好對齊方法,尤其在處理基于人工編輯的反事實圖片問答(hard問題)時效果更為突出。消融實驗驗證了圖像加噪步數、獎勵自校準參數以及獎勵分配方式對TPO性能的影響。Attention分析顯示,TPO訓練可以提升模型回復對圖像信息的關聯程度,從而緩解幻覺問題。獎勵自校準分析則證明了TPO在訓練過程中不斷自我校準獎勵,讓模型逐漸關注更多圖像信息。
4. 結論與未來展望
淘天集團未來生活實驗室團隊提出的TPO方法為緩解LVLMs幻覺問題提供了一種有效途徑。該方法的優勢在于其自動化、高效性和無需人工標注的特點。未來,團隊將繼續深耕強化學習領域,為解決多模態幻覺問題貢獻力量。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺