零成本突破多模態(tài)大模型瓶頸!多所美國頂尖高校華人團隊,聯(lián)合推出自增強技術CSR
AIGC動態(tài)歡迎閱讀
原標題:零成本突破多模態(tài)大模型瓶頸!多所美國頂尖高校華人團隊,聯(lián)合推出自增強技術CSR
關鍵字:模型,數(shù)據(jù),樣本,自我,概率
文章來源:新智元
內(nèi)容字數(shù):0字
內(nèi)容摘要:
新智元報道編輯:LRST
【新智元導讀】現(xiàn)有多模態(tài)大模型在對齊不同模態(tài)時面臨幻覺和細粒度感知不足等問題,傳統(tǒng)偏好學習方法依賴可能不適配的外源數(shù)據(jù),存在成本和質(zhì)量問題。Calibrated Self-Rewarding(CSR)框架通過自我增強學習,利用模型自身輸出構造更可靠的偏好數(shù)據(jù),結合視覺約束提高學習效率和準確性。多模態(tài)大模型展現(xiàn)出了多種多樣的能力,這些能力都通過SFT和預訓練從龐大的訓練數(shù)據(jù)集中學習。
但是模態(tài)之間的簡單對齊可能會使得模型存在幻覺,細粒度圖像感知能力差等各種問題。
已有的多模態(tài)大模型對齊方案一般采用DPO,POVID等偏好優(yōu)化方法,或是蒸餾 GPT-4等昂貴閉源模型的方式來提升模型能力。
這些方法大多需要外源模型數(shù)據(jù),這些數(shù)據(jù)構造存在很多問題,一是需要昂貴的價格,二是缺乏質(zhì)量和多樣性的保證。
再者說,這真的適合需要提升模型本身的分布偏好嗎?
在Calibrated Self-Rewarding Vision Language Models文中,通過模型自身輸出概率證明了,外來模型構造的偏好數(shù)據(jù)可能不適合用于模型的偏好學習,相較于模型自身的response,外源模
原文鏈接:零成本突破多模態(tài)大模型瓶頸!多所美國頂尖高校華人團隊,聯(lián)合推出自增強技術CSR
聯(lián)系作者
文章來源:新智元
作者微信:AI_era
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發(fā)展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。