Meta 推出控制數字智能體動作的人工智能模型

產品名稱：Meta Motivo
產品簡介：Meta Motivo 是 Meta 公司推出的AI模型，能提升元宇宙體驗的真實性。Meta Motivo基于控制虛擬人形智能體的全身動作，模擬人類行為，增強用戶互動。模型采用無監督強化學習算法，特別是FB-CPR算法，用大量動作數據進行預訓練，無需額外訓練即可執行動作軌跡跟蹤、姿勢到達等多種任務。
詳細介紹：

Meta Motivo是什么

Meta Motivo 是 Meta 公司推出的AI模型，能提升元宇宙體驗的真實性。Meta Motivo基于控制虛擬人形智能體的全身動作，模擬人類行為，增強用戶互動。模型采用無監督強化學習算法，特別是FB-CPR算法，用大量動作數據進行預訓練，無需額外訓練即可執行動作軌跡跟蹤、姿勢到達等多種任務。Meta Motivo 的核心優勢在于學習表示技術，能將狀態、動作和獎勵映射到同一潛在空間，實現全身控制任務，提升元宇宙體驗的逼真度和自然感。

Meta Motivo的主要功能

零樣本學習（Zero-Shot Learning）：Meta Motivo能在沒有針對特定任務進行訓練的情況下，直接處理多種不同的任務，如跟蹤、目標達成和獎勵優化。
行為模仿與生成：基于學習未標記的行為數據集，Meta Motivo能模仿和生成類似人類的行為。
多任務泛化：在不同的任務和環境中展現良好的性能，包括動態和靜態的姿勢，及不同的模式。
狀態、動作和獎勵的統一表示：Meta Motivo將狀態、動作和獎勵映射到同一潛在空間，實現對復雜行為的統一表示。

Meta Motivo的技術原理

前向-后向表示（Forward-Backward Representations）：基于前向-后向表示學習低秩近似的后繼者度量，支持模型在沒有進一步訓練的情況下，對任何獎勵函數進行零樣本策略評估和優化。
條件策略正則化（Conditional Policy Regularization）：用潛在條件判別器，Meta Motivo鼓勵策略“覆蓋”未標記行為數據集中的狀態，讓學習到的策略與數據集中的行為保持一致。
潛在空間的分布匹配：基于最小化模型誘導的分布與未標記數據集之間的差異，正則化策略學習過程。
在線訓練與策略學習：Meta Motivo基于在線訓練，將環境交互與模型更新交替進行，讓策略學習過程更加高效和目標導向。
變分表示和判別器網絡：用變分表示估計Jensen-Shannon散度，用訓練判別器網絡近似兩個分布之間的對數比率，有助于模型捕捉和模仿未標記數據集中的行為。