原標題:UC伯克利等提出具身智能「動作Tokenizer」,效率飆升5倍!
文章來源:新智元
內容字數:4818字
高效訓練機器人Transformer:FAST動作Tokenizer的突破
本文總結了Physical Intelligence團隊提出的FAST動作Tokenizer,一種用于高效訓練Transformer控制機器人的新方法。該方法顯著縮短了訓練時間,并提升了機器人完成復雜任務的能力,標志著機器人自回歸Transformer訓練領域的重要進展。
傳統方法的局限性
傳統的機器人動作表示方法,例如簡單的離散劃分,在處理精細、高頻控制任務時存在局限性。雖然擴散模型或流匹配方法(例如π0模型)能取得更好的性能,但其訓練時間非常長。
FAST Tokenizer的核心思想
FAST旨在解決上述問題,它結合了離散余弦變換(DCT)和字節對編碼(BPE)兩種技術。DCT是一種高效的壓縮算法,用于壓縮原始動作序列;BPE則進一步壓縮DCT矩陣,將動作序列轉換成數量更少、更密集的動作Token。這種方法顯著提高了訓練效率,將動作Token數量減少了10倍以上。
FAST的具體步驟
FAST的工作流程包括:1. 對原始動作序列進行歸一化;2. 對每個動作維度應用DCT變換;3. 使用BPE對DCT矩陣進行壓縮,生成最終的動作Token。通過這種方式,FAST將原始動作序列轉化為適合Transformer處理的離散表示。
FAST+:通用的機器人動作Tokenizer
基于FAST,研究者還開發了FAST+,這是一個通用的機器人動作Tokenizer,它在100萬個真實機器人動作序列上進行訓練,能夠高效地處理各種類型的機器人動作數據,包括單臂、雙臂和移動機器人。
π0-FAST:高效的機器人控制策略
將FAST與π0 VLA模型結合,研究者訓練出了π0-FAST模型。實驗結果表明,π0-FAST在完成折疊衣物、收拾餐桌等復雜精細任務上的表現與最先進的擴散模型相當,但訓練時間縮短了5倍。這表明FAST顯著提升了自回歸Transformer在機器人控制領域的訓練效率。
DROID數據集上的突破
利用π0-FAST,研究者首次在DROID數據集上訓練出了一個通用的機器人控制策略,該策略能夠在新的環境中零樣本執行多種操作任務,這在之前是無法實現的。
未來展望
雖然π0-FAST取得了顯著進展,但其推理速度仍有待提高。研究者認為,借鑒LLM中加速離散自回歸Transformer模型推理的技術,可以進一步提升VLA模型的推理效率。
總而言之,FAST動作Tokenizer為高效訓練機器人Transformer提供了新的思路,其在壓縮率、訓練速度和任務執行能力方面都取得了顯著的突破,為機器人控制技術的未來發展帶來了新的可能性。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。
相關文章
