探索不同的對齊方法對MLLMs性能的影響~
原標題:ICLR 高分:深入研究多模態大模型的對齊策略
文章來源:智猩猩GenAI
內容字數:9223字
2024中國生成式AI大會(上海站)預告
2024中國生成式AI大會將于12月5-6日在上海舉辦,由智猩猩聯合主辦。大會將設主會場和分會場,主會場將進行大模型峰會和AI Infra峰會,分會場則將舉行針對端側生成式AI、AI視頻生成和具身智能的技術研討會,歡迎各界人士報名參加。
多模態大模型(MLLMs)研究背景
多模態大模型在視覺與語言理解任務上取得了顯著進展,但仍面臨“幻覺”現象,即生成的描述可能不符合視覺內容。為了解決這一問題,研究人員提出了偏好對齊(preference alignment)方法來增強模型與圖像內容的契合度。
研究主要貢獻
- 對齊方法分類:將偏好對齊方法分為離線方法(如DPO)和在線方法(如在線DPO),并探討了結合兩者的優勢。
- 偏好數據集分析:回顧并分析了多種已發布的偏好數據集,探討其構建細節對模型表現的影響。
- 新偏好數據采樣方法:提出“偏差驅動幻覺采樣”(BDHS),無需額外人工標注,依靠偏差驅動的采樣生成對齊數據。
- 系統化實驗驗證:在多個基準任務上驗證BDHS的有效性,展示其在減少幻覺現象方面的優勢。
技術細節與實驗發現
多模態偏好數據由提示語、優選響應和拒絕響應組成。研究表明,使用多樣化的提示和選定響應能顯著提升對齊效果。同時,BDHS方法通過注意力屏蔽的方式誘導模型產生幻覺響應,并進行語義相似度檢測以確保響應質量。實驗結果顯示,離線DPO在減少幻覺方面表現尤為突出,而混合DPO則結合了在線和離線方法的優勢。另外,使用強標注器能提升模型的對齊質量。
結論與未來展望
本研究探討了偏好對齊在提升MLLM性能方面的作用,并提出新型偏好數據集和BDHS采樣策略。雖然當前研究已揭示了一些關鍵進展與挑戰,但在LLM和MLLM之間仍存在顯著差距。未來的研究應進一步探索在線對齊方法以及幻覺基準的開發,助力該領域的持續發展。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...