多圖場景用DPO對齊!上海AI實(shí)驗(yàn)室等提出新方法,無需人工標(biāo)注

AIGC動(dòng)態(tài)歡迎閱讀
原標(biāo)題:多圖場景用DPO對齊!上海AI實(shí)驗(yàn)室等提出新方法,無需人工標(biāo)注
關(guān)鍵字:圖像,幻覺,模型,數(shù)據(jù),研究者
文章來源:量子位
內(nèi)容字?jǐn)?shù):0字
內(nèi)容摘要:
劉子煜 投稿量子位 | 公眾號 QbitAI多圖像場景也能用DPO方法來對齊了!
由上海交大、上海AI實(shí)驗(yàn)室、港中文等帶來最新成果MIA-DPO。
這是一個(gè)面向大型視覺語言模型的多圖像增強(qiáng)的偏好對齊方法。
通過將單圖像數(shù)據(jù)擴(kuò)展至多圖像數(shù)據(jù),并設(shè)計(jì)序列、網(wǎng)格拼貼和圖中圖三種數(shù)據(jù)格式,MIA-DPO大幅降低了數(shù)據(jù)收集和標(biāo)注成本,且具有高度可擴(kuò)展性。
要知道,理解多圖像上下文已經(jīng)成為視覺語言大模型的發(fā)展趨勢之一,許多數(shù)據(jù)集和評估基準(zhǔn)被提出。不過幻覺問題依然很難避免,且引入多圖像數(shù)據(jù)可能削弱單圖像任務(wù)的表現(xiàn)。
雖然偏好對齊方法(如DPO)在單圖像場景中已被證明有效,但多圖像偏好對齊仍然是一個(gè)解決問題。
MIA-DPO不僅解決了這一問題,而且無需依賴人工標(biāo)注或昂貴的API。
通過分析視覺大語言模型在多圖像處理中的注意力分布差異,他們提出了一種基于注意力的選擇方法(Attention Aware Selection),自動(dòng)過濾掉關(guān)注無關(guān)圖像的錯(cuò)誤答案,構(gòu)建了自動(dòng)化、低成本且適用于多圖像場景的DPO數(shù)據(jù)生成方法。
△MIA-DPO的整體介紹與實(shí)驗(yàn)結(jié)果。值得一提的是,該論文還獲得了當(dāng)日HuggingF
原文鏈接:多圖場景用DPO對齊!上海AI實(shí)驗(yàn)室等提出新方法,無需人工標(biāo)注
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:

粵公網(wǎng)安備 44011502001135號