細粒度對齊無需仔細標注了！淘天提出視覺錨定獎勵，自我校準實現多模態對齊

有效緩解 LVLMs 中的幻覺現象

原標題：細粒度對齊無需仔細標注了！淘天提出視覺錨定獎勵，自我校準實現多模態對齊
文章來源：機器之心
內容字數：5633字

淘天集團提出Token Preference Optimization (TPO)方法緩解視覺大模型幻覺

本文介紹了淘天集團未來生活實驗室團隊在緩解大型視覺語言模型(LVLMs)幻覺問題上取得的最新進展。團隊提出了一種創新的令牌級偏好對齊方法——Token Preference Optimization (TPO)，該方法通過自校準的視覺錨定獎勵信號，有效提升了模型的優化效率和自動化水平，并在多個基準測試中取得了顯著效果。

1. 現有方法的不足與TPO的優勢

現有的直接偏好優化(DPO)方法在緩解LVLMs幻覺方面取得了進展，但仍存在兩個主要問題：缺乏高效且可擴展的令牌級獎勵信號，以及在訓練過程中忽略了視覺錨定tokens的重要性。TPO方法有效解決了這些問題。它能夠自動識別視覺錨定tokens，無需人工細粒度標注，并自動分配反映token對圖像信息依賴程度的令牌級獎勵。

2. TPO方法詳解

TPO方法的核心在于自校準的視覺錨定獎勵生成機制。該機制通過比較圖像加噪前后每個生成token的概率差異來衡量其視覺錨定程度。通過引入一個自校準過程，為正負樣本分配相應的獎勵，并優化所有視覺錨定tokens的視覺信息關聯度。最終，TPO將視覺錨定獎勵整合到DPO框架中，形成了一個新的優化目標。

3. 實驗結果與分析

實驗結果表明，TPO在多個幻覺評測集和通用評測集上均顯著優于現有的偏好對齊方法，尤其在處理基于人工編輯的反事實圖片問答（hard問題）時效果更為突出。消融實驗驗證了圖像加噪步數、獎勵自校準參數以及獎勵分配方式對TPO性能的影響。Attention分析顯示，TPO訓練可以提升模型回復對圖像信息的關聯程度，從而緩解幻覺問題。獎勵自校準分析則證明了TPO在訓練過程中不斷自我校準獎勵，讓模型逐漸關注更多圖像信息。

4. 結論與未來展望

淘天集團未來生活實驗室團隊提出的TPO方法為緩解LVLMs幻覺問題提供了一種有效途徑。該方法的優勢在于其自動化、高效性和無需人工標注的特點。未來，團隊將繼續深耕強化學習領域，為解決多模態幻覺問題貢獻力量。

聯系作者

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

閱讀原文

# AIGC動態 # 無需仔細標注 # 淘天 # 細粒度對齊 # 自我校準多模態對齊 # 視覺錨定獎勵

文章版權歸作者所有，未經允許請勿轉載。

暫無評論

暫無評論...

細粒度對齊無需仔細標注了！淘天提出視覺錨定獎勵，自我校準實現多模態對齊

有效緩解 LVLMs 中的幻覺現象

淘天集團提出Token Preference Optimization (TPO)方法緩解視覺大模型幻覺

1. 現有方法的不足與TPO的優勢

2. TPO方法詳解

3. 實驗結果與分析

4. 結論與未來展望

聯系作者

突發：TikTok 宣布其服務在美國將臨時中斷

DeepSeek新模型霸榜，代碼能力與OpenAI o1相當且確認開源，網友：今年編程只剩Tab鍵

相關文章

暫無評論

ChatGPT

畢業論文生成器

AIGC熱點