<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        把RLHF帶給VLA模型!通過偏好對齊來優化機器人策略,代碼已開源

        AIGC動態9個月前發布 機器之心
        508 0 0

        本文將介紹如何通過偏好對齊來泛化機器人策略。

        把RLHF帶給VLA模型!通過偏好對齊來優化機器人策略,代碼已開源

        原標題:把RLHF帶給VLA模型!通過偏好對齊來優化機器人策略,代碼已開源
        文章來源:機器之心
        內容字數:4186字

        GRAPE: 提升機器人策略泛化能力的偏好對齊框架

        本文介紹了機器之心AIxiv專欄報道的最新研究成果——GRAPE (Generalizing Robot Policy via Preference Alignment) 框架。該研究由北卡羅來納大學教堂山分校張子健等學者完成,旨在解決視覺-語言-動作(VLA)模型在機器人任務中泛化能力不足的問題。

        1. 研究背景與問題

        現有的VLA模型通常依賴于對成功執行軌跡的行為克隆,導致其在面對新任務時泛化能力較差。此外,微調方法帶來的分布偏差也限制了模型對多樣化操作目標(例如效率、安全性)的適應能力。

        2. GRAPE框架及其優勢

        GRAPE是一個即插即用的算法,通過偏好對齊來提升VLA模型的泛化能力,并支持將模型對齊到任意設定的目標。它具有以下三大優勢:

        1. 軌跡級強化學習對齊:GRAPE在軌跡層面利用強化學習目標對VLA模型進行對齊,賦予模型全局決策能力,而非簡單的行為克隆。
        2. 隱式獎勵建模:GRAPE隱式建模了成功和失敗嘗試中的獎勵,提升了對多樣化任務的泛化能力。
        3. 可擴展的偏好合成算法:GRAPE采用可擴展的偏好合成算法,通過對軌跡進行排序,將VLA模型對齊到指定目標。

        GRAPE框架包含三個主要部分:軌跡級偏好優化(Trajectory-wise Preference Optimization,TPO)、定制化偏好合成(Customized Preference Synthesis)和迭代式在線對齊(Iterative Online Alignment)。TPO通過改進的DPO損失函數(TPO_Loss)進行軌跡級別偏好學習;定制化偏好合成則利用大型視覺-語言模型分解復雜任務,自動引導偏好建模過程;迭代式在線對齊則通過循環迭代不斷優化對齊過程。

        3. 實驗結果與分析

        研究人員在真機和仿真環境下對GRAPE進行了評估。真機實驗涵蓋了五種分布外泛化(OOD)任務,結果顯示GRAPE相較于OpenVLA-SFT模型取得了顯著提升(20.7%~26.7%)。仿真實驗也驗證了GRAPE在面對不同OOD任務時的優越性能(8.0%~19.0%)。

        此外,實驗還表明GRAPE能夠有效地將機器人策略與多種目標(如安全性、效率)對齊,例如,在追求安全性的目標下,碰撞率降低了44.31%;在追求效率的目標下,執行軌跡長度縮短了11.15%。

        4. 結論

        GRAPE框架是一種即插即用的VLA模型對齊方法,能夠顯著提升機器人策略的泛化能力,并支持對齊到任意指定目標,在多種機器人任務場景下均有應用潛力。


        聯系作者

        文章來源:機器之心
        作者微信:
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 成人福利在线观看免费视频| 久久精品亚洲中文字幕无码麻豆| 亚洲中文字幕精品久久| 最近中文字幕国语免费完整| 亚洲图片一区二区| 99re6免费视频| 亚洲精彩视频在线观看| **aaaaa毛片免费同男同女| 亚洲美女中文字幕| 可以免费看黄的网站| 亚洲综合无码无在线观看| 日韩成人免费aa在线看| 全部在线播放免费毛片| 永久亚洲成a人片777777| a级毛片免费全部播放无码| 久久久久久亚洲AV无码专区| 无人在线观看免费高清| 亚洲喷奶水中文字幕电影| 国内精品免费视频自在线| 特级av毛片免费观看| 亚洲日本va在线视频观看| 老汉精品免费AV在线播放| 亚洲乱码中文论理电影| 国产色爽免费视频| 成人免费ā片在线观看| 久久精品国产亚洲77777| 成年私人影院免费视频网站| 特级毛片爽www免费版| 久久亚洲精品成人777大小说| 麻豆一区二区免费播放网站| 青青免费在线视频| 亚洲人成电影福利在线播放 | 人妖系列免费网站观看| 久久国产亚洲电影天堂| 成人免费看吃奶视频网站| 一级做性色a爰片久久毛片免费| 亚洲最大的成网4438| 日本不卡在线观看免费v| 日本免费一区二区久久人人澡| 亚洲18在线天美| 亚洲综合伊人久久综合|