多圖場景用DPO對齊！上海AI實(shí)驗(yàn)室等提出新方法，無需人工標(biāo)注

AIGC動(dòng)態(tài)1年前 (2024)發(fā)布量子位

AIGC動(dòng)態(tài)歡迎閱讀

原標(biāo)題：多圖場景用DPO對齊！上海AI實(shí)驗(yàn)室等提出新方法，無需人工標(biāo)注
關(guān)鍵字：圖像,幻覺,模型,數(shù)據(jù),研究者
文章來源：量子位
內(nèi)容字?jǐn)?shù)：0字

內(nèi)容摘要：

劉子煜投稿量子位 | 公眾號 QbitAI多圖像場景也能用DPO方法來對齊了！
由上海交大、上海AI實(shí)驗(yàn)室、港中文等帶來最新成果MIA-DPO。
這是一個(gè)面向大型視覺語言模型的多圖像增強(qiáng)的偏好對齊方法。
通過將單圖像數(shù)據(jù)擴(kuò)展至多圖像數(shù)據(jù)，并設(shè)計(jì)序列、網(wǎng)格拼貼和圖中圖三種數(shù)據(jù)格式，MIA-DPO大幅降低了數(shù)據(jù)收集和標(biāo)注成本，且具有高度可擴(kuò)展性。
要知道，理解多圖像上下文已經(jīng)成為視覺語言大模型的發(fā)展趨勢之一，許多數(shù)據(jù)集和評估基準(zhǔn)被提出。不過幻覺問題依然很難避免，且引入多圖像數(shù)據(jù)可能削弱單圖像任務(wù)的表現(xiàn)。
雖然偏好對齊方法（如DPO）在單圖像場景中已被證明有效，但多圖像偏好對齊仍然是一個(gè)解決問題。
MIA-DPO不僅解決了這一問題，而且無需依賴人工標(biāo)注或昂貴的API。
通過分析視覺大語言模型在多圖像處理中的注意力分布差異，他們提出了一種基于注意力的選擇方法（Attention Aware Selection），自動(dòng)過濾掉關(guān)注無關(guān)圖像的錯(cuò)誤答案，構(gòu)建了自動(dòng)化、低成本且適用于多圖像場景的DPO數(shù)據(jù)生成方法。
△MIA-DPO的整體介紹與實(shí)驗(yàn)結(jié)果。值得一提的是，該論文還獲得了當(dāng)日HuggingF

原文鏈接：多圖場景用DPO對齊！上海AI實(shí)驗(yàn)室等提出新方法，無需人工標(biāo)注