多模態(tài)大模型對齊新范式,10個評估維度全面提升,快手&中科院&南大打破瓶頸
MM-RLHF,數(shù)據(jù)算法模型Pipline全開源
原標題:多模態(tài)大模型對齊新范式,10個評估維度全面提升,快手&中科院&南大打破瓶頸
文章來源:量子位
內(nèi)容字數(shù):8610字
快手、中科院、南大合作:MM-RLHF,多模態(tài)大模型對齊的“游戲規(guī)則改變者”
近年來,多模態(tài)大語言模型(MLLMs)發(fā)展迅速,但其與人類偏好的對齊度仍有待提高。現(xiàn)有研究多集中于特定領域,例如減少幻覺,對MLLMs整體能力提升的影響尚不明確。快手、中科院和南大合作團隊提出的MM-RLHF框架,旨在從數(shù)據(jù)集、獎勵模型和訓練算法三個層面推動MLLM對齊發(fā)展,取得了顯著成果,并在Twitter上引發(fā)熱議,被譽為多模態(tài)對齊領域的“游戲規(guī)則改變者”。
1. MM-RLHF 的主要貢獻
MM-RLHF 的主要貢獻體現(xiàn)在以下幾個方面:
- 高質(zhì)量偏好數(shù)據(jù)集:構建了一個包含120k個精細標注的偏好比較對數(shù)據(jù)集,由50名標注人員和8名專家耗時兩個月完成。該數(shù)據(jù)集在規(guī)模、多樣性、標注粒度和質(zhì)量方面均有顯著提升,包含有用性、真實性和倫理性三個維度的打分,以及排序和原因描述等信息。
- 基于批評的獎勵模型:提出了一種創(chuàng)新的基于批評的獎勵模型 (Critique-Based Reward Model),該模型先對模型輸出進行批評,再進行評分,相比傳統(tǒng)的標量獎勵機制,具有更好的可解釋性和信息量。一個7B參數(shù)的模型,其性能就超越了現(xiàn)有的72B參數(shù)的MLLM。
- 動態(tài)獎勵縮放:提出動態(tài)獎勵縮放 (Dynamic Reward Scaling) 方法,根據(jù)獎勵信號調(diào)整每個樣本的損失權重,提高了高質(zhì)量比較對的使用效率。
- 全面評估:在10個維度、27個基準上進行了嚴格評估,其中包括自建的安全性基準 MM-RLHF-SafeBench,結果顯示在各個方面均取得了顯著且一致的性能提升。例如,LLaVA-ov-7B模型的會話能力平均提升了19.5%,安全性平均提升了60%。
2. 數(shù)據(jù)集構建與標注
該數(shù)據(jù)集的數(shù)據(jù)來源廣泛,包括LLaVA-OV、VLfeedback等,涵蓋圖像和視頻數(shù)據(jù)。數(shù)據(jù)過濾和模型響應生成采用多選題、長文本等類別均勻采樣和knn聚類策略,保證數(shù)據(jù)的多樣性。標注包含有用性、真實性和倫理性三個維度,并要求標注人員提供打分依據(jù)和排名依據(jù),保證標注質(zhì)量。
3. 獎勵模型及訓練算法
傳統(tǒng)的獎勵模型難以充分利用人類注釋信息,MM-RLHF提出的基于批評的獎勵模型則彌補了這一缺陷。通過GPT-4o增強人工注釋,提高批評質(zhì)量。在訓練過程中,批評的生成與獎勵頭的訓練同時進行,采用teacher-forcing策略。動態(tài)獎勵縮放 (MM-DPO) 方法則有效利用高質(zhì)量偏好數(shù)據(jù),優(yōu)先利用高置信度的樣本對。
4. 實驗結果與分析
實驗結果表明,MM-RLHF在各個評估維度上都取得了顯著的性能提升,尤其在會話能力和安全性方面提升最為明顯。不同模型在對齊過程中表現(xiàn)出不同的性能趨勢,需要根據(jù)具體模型進行超參數(shù)定制化調(diào)整。此外,研究還發(fā)現(xiàn)小規(guī)模MLLMs(參數(shù)少于7B)通過自我提升實現(xiàn)全面性能提升面臨挑戰(zhàn),這主要由于模型容量限制和獎勵信號質(zhì)量的局限性。
5. 未來研究方向
未來研究將重點關注利用數(shù)據(jù)集的豐富注釋粒度信息,結合先進的優(yōu)化技術和高分辨率數(shù)據(jù),并使用半自動化策略高效地擴展數(shù)據(jù)集,以進一步提升MLLM的對齊水平,并為更廣泛的多模態(tài)學習框架奠定基礎。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關注科技行業(yè)新突破