零成本突破多模態大模型瓶頸！多所美國頂尖高校華人團隊，聯合推出自增強技術CSR

AIGC動態歡迎閱讀

原標題：零成本突破多模態大模型瓶頸！多所美國頂尖高校華人團隊，聯合推出自增強技術CSR
關鍵字：模型,數據,樣本,自我,概率
文章來源：新智元
內容字數：0字

內容摘要：

新智元報道編輯：LRST
【新智元導讀】現有多模態大模型在對齊不同模態時面臨幻覺和細粒度感知不足等問題，傳統偏好學習方法依賴可能不適配的外源數據，存在成本和質量問題。Calibrated Self-Rewarding（CSR）框架通過自我增強學習，利用模型自身輸出構造更可靠的偏好數據，結合視覺約束提高學習效率和準確性。多模態大模型展現出了多種多樣的能力，這些能力都通過SFT和預訓練從龐大的訓練數據集中學習。
但是模態之間的簡單對齊可能會使得模型存在幻覺，細粒度圖像感知能力差等各種問題。
已有的多模態大模型對齊方案一般采用DPO，POVID等偏好優化方法，或是蒸餾 GPT-4等昂貴閉源模型的方式來提升模型能力。
這些方法大多需要外源模型數據，這些數據構造存在很多問題，一是需要昂貴的價格，二是缺乏質量和多樣性的保證。
再者說，這真的適合需要提升模型本身的分布偏好嗎？
在Calibrated Self-Rewarding Vision Language Models文中，通過模型自身輸出概率證明了，外來模型構造的偏好數據可能不適合用于模型的偏好學習，相較于模型自身的response，外源模

原文鏈接：零成本突破多模態大模型瓶頸！多所美國頂尖高校華人團隊，聯合推出自增強技術CSR