UC伯克利等提出具身智能「動作Tokenizer」，效率飆升5倍！

原標題：UC伯克利等提出具身智能「動作Tokenizer」，效率飆升5倍！
文章來源：新智元
內容字數：4818字

高效訓練機器人Transformer：FAST動作Tokenizer的突破

本文總結了Physical Intelligence團隊提出的FAST動作Tokenizer，一種用于高效訓練Transformer控制機器人的新方法。該方法顯著縮短了訓練時間，并提升了機器人完成復雜任務的能力，標志著機器人自回歸Transformer訓練領域的重要進展。

傳統方法的局限性
傳統的機器人動作表示方法，例如簡單的離散劃分，在處理精細、高頻控制任務時存在局限性。雖然擴散模型或流匹配方法（例如π0模型）能取得更好的性能，但其訓練時間非常長。
FAST Tokenizer的核心思想
FAST旨在解決上述問題，它結合了離散余弦變換（DCT）和字節對編碼（BPE）兩種技術。DCT是一種高效的壓縮算法，用于壓縮原始動作序列；BPE則進一步壓縮DCT矩陣，將動作序列轉換成數量更少、更密集的動作Token。這種方法顯著提高了訓練效率，將動作Token數量減少了10倍以上。
FAST的具體步驟
FAST的工作流程包括：1. 對原始動作序列進行歸一化；2. 對每個動作維度應用DCT變換；3. 使用BPE對DCT矩陣進行壓縮，生成最終的動作Token。通過這種方式，FAST將原始動作序列轉化為適合Transformer處理的離散表示。
FAST+：通用的機器人動作Tokenizer
基于FAST，研究者還開發了FAST+，這是一個通用的機器人動作Tokenizer，它在100萬個真實機器人動作序列上進行訓練，能夠高效地處理各種類型的機器人動作數據，包括單臂、雙臂和移動機器人。
π0-FAST：高效的機器人控制策略
將FAST與π0 VLA模型結合，研究者訓練出了π0-FAST模型。實驗結果表明，π0-FAST在完成折疊衣物、收拾餐桌等復雜精細任務上的表現與最先進的擴散模型相當，但訓練時間縮短了5倍。這表明FAST顯著提升了自回歸Transformer在機器人控制領域的訓練效率。
DROID數據集上的突破
利用π0-FAST，研究者首次在DROID數據集上訓練出了一個通用的機器人控制策略，該策略能夠在新的環境中零樣本執行多種操作任務，這在之前是無法實現的。
未來展望
雖然π0-FAST取得了顯著進展，但其推理速度仍有待提高。研究者認為，借鑒LLM中加速離散自回歸Transformer模型推理的技術，可以進一步提升VLA模型的推理效率。