深度思考新方向?
原標題:Bengio參與,擴散模型+蒙特卡洛樹搜索實現System 2規劃
文章來源:機器之心
內容字數:4244字
蒙特卡洛樹擴散 (MCTD): 結合擴散模型與MCTS的規劃新框架
本文總結了機器之心報道中關于蒙特卡洛樹擴散 (MCTD) 的研究成果。該研究由Yoshua Bengio和Sungjin Ahn領導的團隊完成,旨在結合擴散模型的生成能力和蒙特卡洛樹搜索 (MCTS) 的自適應搜索能力,以提升基于擴散的規劃的效率和可擴展性。
1. 擴散模型與MCTS的優勢與不足
擴散模型能夠生成復雜的軌跡,無需依賴前向動力學模型,尤其適用于長周期或稀疏獎勵的規劃任務。然而,提升其規劃精度的額外計算成本利用效率低。MCTS具有強大的可擴展性,能夠隨著計算量的增加有效提升規劃準確度,但依賴前向模型,存在全局一致性問題,且在長遠規劃和大動作空間中計算需求巨大。
2. MCTD框架:創新之處
MCTD框架巧妙地結合了擴散模型和MCTS,主要有三項創新:
將去噪過程重構成基于樹的rollout過程: 這使得MCTD能夠在保持軌跡連貫性的同時實現半自回歸的因果規劃。
引入引導層級作為元動作: 實現了“探索”與“利用”的動態平衡,確保在擴散框架內實現自適應和可擴展的軌跡優化。
采用快速跳躍去噪機制: 無需成本高昂的前向模型rollout即可有效估計軌跡質量。
MCTD將MCTS的四個步驟(選擇、擴展、模擬和反向傳播)整合到擴散過程中,有效地將結構化搜索與生成式建模結合。
3. MCTD的兩種視角及算法過程
MCTD可以從MCTS視角和擴散視角兩種角度理解。MCTS視角強調MCTD在部分去噪樹上的迭代搜索過程;擴散視角則關注在去噪深度和規劃范圍上的部分去噪過程。該框架統一了這兩種視角。
文章中給出了MCTD的算法流程圖,詳細描述了其運作機制。
4. 實驗結果與未來展望
實驗結果表明,MCTD在Offline Goal-conditioned RL Benchmark (OGBench)上的多種任務中,例如迷宮導航和機器人操作任務中,顯著優于其他方法,展現了其卓越的可擴展性和高質量的解決方案。 文章提供了多個表格和圖表,展示了MCTD在不同任務上的優越性能。
研究團隊表示,未來將探索自適應計算分配、基于學習的元動作選擇和獎勵塑造等方向,以進一步提升MCTD的性能,為更具可擴展性和靈活性的System 2規劃鋪平道路。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺