多模態(tài)大模型對齊新范式，10個評估維度全面提升，快手&中科院&南大打破瓶頸

AIGC動態(tài)3個月前發(fā)布量子位

307 0 0

MM-RLHF，數(shù)據(jù)算法模型Pipline全開源

原標題：多模態(tài)大模型對齊新范式，10個評估維度全面提升，快手&中科院&南大打破瓶頸
文章來源：量子位
內(nèi)容字數(shù)：8610字

快手、中科院、南大合作：MM-RLHF，多模態(tài)大模型對齊的“游戲規(guī)則改變者”

近年來，多模態(tài)大語言模型（MLLMs）發(fā)展迅速，但其與人類偏好的對齊度仍有待提高。現(xiàn)有研究多集中于特定領域，例如減少幻覺，對MLLMs整體能力提升的影響尚不明確。快手、中科院和南大合作團隊提出的MM-RLHF框架，旨在從數(shù)據(jù)集、獎勵模型和訓練算法三個層面推動MLLM對齊發(fā)展，取得了顯著成果，并在Twitter上引發(fā)熱議，被譽為多模態(tài)對齊領域的“游戲規(guī)則改變者”。

1. MM-RLHF 的主要貢獻

MM-RLHF 的主要貢獻體現(xiàn)在以下幾個方面：

高質(zhì)量偏好數(shù)據(jù)集：構建了一個包含120k個精細標注的偏好比較對數(shù)據(jù)集，由50名標注人員和8名專家耗時兩個月完成。該數(shù)據(jù)集在規(guī)模、多樣性、標注粒度和質(zhì)量方面均有顯著提升，包含有用性、真實性和倫理性三個維度的打分，以及排序和原因描述等信息。
基于批評的獎勵模型：提出了一種創(chuàng)新的基于批評的獎勵模型 (Critique-Based Reward Model)，該模型先對模型輸出進行批評，再進行評分，相比傳統(tǒng)的標量獎勵機制，具有更好的可解釋性和信息量。一個7B參數(shù)的模型，其性能就超越了現(xiàn)有的72B參數(shù)的MLLM。
動態(tài)獎勵縮放：提出動態(tài)獎勵縮放 (Dynamic Reward Scaling) 方法，根據(jù)獎勵信號調(diào)整每個樣本的損失權重，提高了高質(zhì)量比較對的使用效率。
全面評估：在10個維度、27個基準上進行了嚴格評估，其中包括自建的安全性基準 MM-RLHF-SafeBench，結果顯示在各個方面均取得了顯著且一致的性能提升。例如，LLaVA-ov-7B模型的會話能力平均提升了19.5%，安全性平均提升了60%。

2. 數(shù)據(jù)集構建與標注

該數(shù)據(jù)集的數(shù)據(jù)來源廣泛，包括LLaVA-OV、VLfeedback等，涵蓋圖像和視頻數(shù)據(jù)。數(shù)據(jù)過濾和模型響應生成采用多選題、長文本等類別均勻采樣和knn聚類策略，保證數(shù)據(jù)的多樣性。標注包含有用性、真實性和倫理性三個維度，并要求標注人員提供打分依據(jù)和排名依據(jù)，保證標注質(zhì)量。

3. 獎勵模型及訓練算法

傳統(tǒng)的獎勵模型難以充分利用人類注釋信息，MM-RLHF提出的基于批評的獎勵模型則彌補了這一缺陷。通過GPT-4o增強人工注釋，提高批評質(zhì)量。在訓練過程中，批評的生成與獎勵頭的訓練同時進行，采用teacher-forcing策略。動態(tài)獎勵縮放 (MM-DPO) 方法則有效利用高質(zhì)量偏好數(shù)據(jù)，優(yōu)先利用高置信度的樣本對。

4. 實驗結果與分析

實驗結果表明，MM-RLHF在各個評估維度上都取得了顯著的性能提升，尤其在會話能力和安全性方面提升最為明顯。不同模型在對齊過程中表現(xiàn)出不同的性能趨勢，需要根據(jù)具體模型進行超參數(shù)定制化調(diào)整。此外，研究還發(fā)現(xiàn)小規(guī)模MLLMs（參數(shù)少于7B）通過自我提升實現(xiàn)全面性能提升面臨挑戰(zhàn)，這主要由于模型容量限制和獎勵信號質(zhì)量的局限性。