<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        把RLHF帶給VLA模型!通過偏好對齊來優化機器人策略,代碼已開源

        AIGC動態7個月前發布 機器之心
        494 0 0

        本文將介紹如何通過偏好對齊來泛化機器人策略。

        把RLHF帶給VLA模型!通過偏好對齊來優化機器人策略,代碼已開源

        原標題:把RLHF帶給VLA模型!通過偏好對齊來優化機器人策略,代碼已開源
        文章來源:機器之心
        內容字數:4186字

        GRAPE: 提升機器人策略泛化能力的偏好對齊框架

        本文介紹了機器之心AIxiv專欄報道的最新研究成果——GRAPE (Generalizing Robot Policy via Preference Alignment) 框架。該研究由北卡羅來納大學教堂山分校張子健等學者完成,旨在解決視覺-語言-動作(VLA)模型在機器人任務中泛化能力不足的問題。

        1. 研究背景與問題

        現有的VLA模型通常依賴于對成功執行軌跡的行為克隆,導致其在面對新任務時泛化能力較差。此外,微調方法帶來的分布偏差也限制了模型對多樣化操作目標(例如效率、安全性)的適應能力。

        2. GRAPE框架及其優勢

        GRAPE是一個即插即用的算法,通過偏好對齊來提升VLA模型的泛化能力,并支持將模型對齊到任意設定的目標。它具有以下三大優勢:

        1. 軌跡級強化學習對齊:GRAPE在軌跡層面利用強化學習目標對VLA模型進行對齊,賦予模型全局決策能力,而非簡單的行為克隆。
        2. 隱式獎勵建模:GRAPE隱式建模了成功和失敗嘗試中的獎勵,提升了對多樣化任務的泛化能力。
        3. 可擴展的偏好合成算法:GRAPE采用可擴展的偏好合成算法,通過對軌跡進行排序,將VLA模型對齊到指定目標。

        GRAPE框架包含三個主要部分:軌跡級偏好優化(Trajectory-wise Preference Optimization,TPO)、定制化偏好合成(Customized Preference Synthesis)和迭代式在線對齊(Iterative Online Alignment)。TPO通過改進的DPO損失函數(TPO_Loss)進行軌跡級別偏好學習;定制化偏好合成則利用大型視覺-語言模型分解復雜任務,自動引導偏好建模過程;迭代式在線對齊則通過循環迭代不斷優化對齊過程。

        3. 實驗結果與分析

        研究人員在真機和仿真環境下對GRAPE進行了評估。真機實驗涵蓋了五種分布外泛化(OOD)任務,結果顯示GRAPE相較于OpenVLA-SFT模型取得了顯著提升(20.7%~26.7%)。仿真實驗也驗證了GRAPE在面對不同OOD任務時的優越性能(8.0%~19.0%)。

        此外,實驗還表明GRAPE能夠有效地將機器人策略與多種目標(如安全性、效率)對齊,例如,在追求安全性的目標下,碰撞率降低了44.31%;在追求效率的目標下,執行軌跡長度縮短了11.15%。

        4. 結論

        GRAPE框架是一種即插即用的VLA模型對齊方法,能夠顯著提升機器人策略的泛化能力,并支持對齊到任意指定目標,在多種機器人任務場景下均有應用潛力。


        聯系作者

        文章來源:機器之心
        作者微信:
        作者簡介:專業的人工智能媒體和產業服務平臺

        閱讀原文
        ? 版權聲明
        蟬鏡AI數字人

        相關文章

        蟬鏡AI數字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 2021国内精品久久久久精免费| 最新久久免费视频| 亚洲日韩国产AV无码无码精品| 另类图片亚洲校园小说区| 免费一级毛片无毒不卡| 亚洲一区在线免费观看| 全黄a免费一级毛片人人爱| 香蕉视频在线观看亚洲| 亚洲av日韩av永久在线观看| 国产一区二区三区免费观看在线| 亚洲视频免费播放| 亚洲喷奶水中文字幕电影| jizz免费在线观看| 中文字幕无码免费久久99| 国产亚洲情侣一区二区无| 亚洲精品无码中文久久字幕| 青青青国产免费一夜七次郎 | 亚洲日本久久久午夜精品| 一级人做人a爰免费视频| 精品久久久久国产免费| 久久综合日韩亚洲精品色| 无码 免费 国产在线观看91| 最近2019中文字幕免费看最新 | 亚洲av成人一区二区三区| XXX2高清在线观看免费视频| 免费无码不卡视频在线观看| 麻豆一区二区三区蜜桃免费| 久久不见久久见中文字幕免费| 亚洲av中文无码乱人伦在线观看 | 一个人免费观看视频www| 亚洲欧洲专线一区| 亚洲AV无码乱码在线观看性色扶| 亚洲综合激情五月丁香六月| 67194国产精品免费观看| 亚洲人成网站18禁止久久影院| 卡1卡2卡3卡4卡5免费视频 | 免费又黄又爽又猛大片午夜| 成人免费无遮挡无码黄漫视频| 青娱乐在线视频免费观看| 国产亚洲精品精华液| 中文字幕视频免费在线观看|