<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        多模態(tài)大模型對齊新范式,10個評估維度全面提升,快手&中科院&南大打破瓶頸

        AIGC動態(tài)3個月前發(fā)布 量子位
        307 0 0

        MM-RLHF,數(shù)據(jù)算法模型Pipline全開源

        多模態(tài)大模型對齊新范式,10個評估維度全面提升,快手&中科院&南大打破瓶頸

        原標題:多模態(tài)大模型對齊新范式,10個評估維度全面提升,快手&中科院&南大打破瓶頸
        文章來源:量子位
        內(nèi)容字數(shù):8610字

        快手、中科院、南大合作:MM-RLHF,多模態(tài)大模型對齊的“游戲規(guī)則改變者”

        近年來,多模態(tài)大語言模型(MLLMs)發(fā)展迅速,但其與人類偏好的對齊度仍有待提高。現(xiàn)有研究多集中于特定領域,例如減少幻覺,對MLLMs整體能力提升的影響尚不明確。快手、中科院和南大合作團隊提出的MM-RLHF框架,旨在從數(shù)據(jù)集、獎勵模型和訓練算法三個層面推動MLLM對齊發(fā)展,取得了顯著成果,并在Twitter上引發(fā)熱議,被譽為多模態(tài)對齊領域的“游戲規(guī)則改變者”。

        1. MM-RLHF 的主要貢獻

        MM-RLHF 的主要貢獻體現(xiàn)在以下幾個方面:

        1. 高質(zhì)量偏好數(shù)據(jù)集:構建了一個包含120k個精細標注的偏好比較對數(shù)據(jù)集,由50名標注人員和8名專家耗時兩個月完成。該數(shù)據(jù)集在規(guī)模、多樣性、標注粒度和質(zhì)量方面均有顯著提升,包含有用性、真實性和倫理性三個維度的打分,以及排序和原因描述等信息。
        2. 基于批評的獎勵模型:提出了一種創(chuàng)新的基于批評的獎勵模型 (Critique-Based Reward Model),該模型先對模型輸出進行批評,再進行評分,相比傳統(tǒng)的標量獎勵機制,具有更好的可解釋性和信息量。一個7B參數(shù)的模型,其性能就超越了現(xiàn)有的72B參數(shù)的MLLM。
        3. 動態(tài)獎勵縮放:提出動態(tài)獎勵縮放 (Dynamic Reward Scaling) 方法,根據(jù)獎勵信號調(diào)整每個樣本的損失權重,提高了高質(zhì)量比較對的使用效率。
        4. 全面評估:在10個維度、27個基準上進行了嚴格評估,其中包括自建的安全性基準 MM-RLHF-SafeBench,結果顯示在各個方面均取得了顯著且一致的性能提升。例如,LLaVA-ov-7B模型的會話能力平均提升了19.5%,安全性平均提升了60%。

        2. 數(shù)據(jù)集構建與標注

        該數(shù)據(jù)集的數(shù)據(jù)來源廣泛,包括LLaVA-OV、VLfeedback等,涵蓋圖像和視頻數(shù)據(jù)。數(shù)據(jù)過濾和模型響應生成采用多選題、長文本等類別均勻采樣和knn聚類策略,保證數(shù)據(jù)的多樣性。標注包含有用性、真實性和倫理性三個維度,并要求標注人員提供打分依據(jù)和排名依據(jù),保證標注質(zhì)量。

        3. 獎勵模型及訓練算法

        傳統(tǒng)的獎勵模型難以充分利用人類注釋信息,MM-RLHF提出的基于批評的獎勵模型則彌補了這一缺陷。通過GPT-4o增強人工注釋,提高批評質(zhì)量。在訓練過程中,批評的生成與獎勵頭的訓練同時進行,采用teacher-forcing策略。動態(tài)獎勵縮放 (MM-DPO) 方法則有效利用高質(zhì)量偏好數(shù)據(jù),優(yōu)先利用高置信度的樣本對。

        4. 實驗結果與分析

        實驗結果表明,MM-RLHF在各個評估維度上都取得了顯著的性能提升,尤其在會話能力和安全性方面提升最為明顯。不同模型在對齊過程中表現(xiàn)出不同的性能趨勢,需要根據(jù)具體模型進行超參數(shù)定制化調(diào)整。此外,研究還發(fā)現(xiàn)小規(guī)模MLLMs(參數(shù)少于7B)通過自我提升實現(xiàn)全面性能提升面臨挑戰(zhàn),這主要由于模型容量限制和獎勵信號質(zhì)量的局限性。

        5. 未來研究方向

        未來研究將重點關注利用數(shù)據(jù)集的豐富注釋粒度信息,結合先進的優(yōu)化技術和高分辨率數(shù)據(jù),并使用半自動化策略高效地擴展數(shù)據(jù)集,以進一步提升MLLM的對齊水平,并為更廣泛的多模態(tài)學習框架奠定基礎。


        聯(lián)系作者

        文章來源:量子位
        作者微信:
        作者簡介:追蹤人工智能新趨勢,關注科技行業(yè)新突破

        閱讀原文
        ? 版權聲明
        Trae官網(wǎng)

        相關文章

        Trae官網(wǎng)

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 亚洲日韩中文字幕| 亚洲性一级理论片在线观看| 一区在线免费观看| 免费91麻豆精品国产自产在线观看| 国产网站免费观看| 亚洲性无码一区二区三区| 无码午夜成人1000部免费视频| 亚洲精品无码专区2| 亚洲AV无码AV日韩AV网站| 免费黄色福利视频| 亚洲天天做日日做天天欢毛片| 另类图片亚洲校园小说区| 麻豆成人精品国产免费| 久久亚洲国产最新网站| 国产无人区码卡二卡三卡免费 | 91亚洲精品第一综合不卡播放| 久久免费线看线看| 亚洲AV成人片无码网站| 三年片免费观看大全国语| 国产v片免费播放| 亚洲国产一区二区三区在线观看| 亚洲成在人线aⅴ免费毛片| 亚洲成无码人在线观看| 亚洲女同成人AⅤ人片在线观看| 在线视频免费观看高清| 水蜜桃视频在线观看免费播放高清| 亚洲国产精品无码专区| 永久免费av无码入口国语片| 亚洲第一福利网站| 歪歪漫画在线观看官网免费阅读| 中文字幕免费在线播放| 久久精品国产亚洲av天美18| 中文字幕亚洲图片| 免费无码作爱视频| 羞羞视频网站免费入口| 国产精品亚洲精品日韩已方| 少妇太爽了在线观看免费视频| 丰满少妇作爱视频免费观看| 亚洲精品GV天堂无码男同| 亚洲成aⅴ人在线观看| 亚洲成a人片在线观看无码|