Bengio參與，擴散模型+蒙特卡洛樹搜索實現System 2規劃

深度思考新方向？

原標題：Bengio參與，擴散模型+蒙特卡洛樹搜索實現System 2規劃
文章來源：機器之心
內容字數：4244字

本文總結了機器之心報道中關于蒙特卡洛樹擴散 (MCTD) 的研究成果。該研究由Yoshua Bengio和Sungjin Ahn領導的團隊完成，旨在結合擴散模型的生成能力和蒙特卡洛樹搜索 (MCTS) 的自適應搜索能力，以提升基于擴散的規劃的效率和可擴展性。

擴散模型能夠生成復雜的軌跡，無需依賴前向動力學模型，尤其適用于長周期或稀疏獎勵的規劃任務。然而，提升其規劃精度的額外計算成本利用效率低。MCTS具有強大的可擴展性，能夠隨著計算量的增加有效提升規劃準確度，但依賴前向模型，存在全局一致性問題，且在長遠規劃和大動作空間中計算需求巨大。

MCTD框架巧妙地結合了擴散模型和MCTS，主要有三項創新：

MCTD將MCTS的四個步驟（選擇、擴展、模擬和反向傳播）整合到擴散過程中，有效地將結構化搜索與生成式建模結合。

MCTD可以從MCTS視角和擴散視角兩種角度理解。MCTS視角強調MCTD在部分去噪樹上的迭代搜索過程；擴散視角則關注在去噪深度和規劃范圍上的部分去噪過程。該框架統一了這兩種視角。

文章中給出了MCTD的算法流程圖，詳細描述了其運作機制。

實驗結果表明，MCTD在Offline Goal-conditioned RL Benchmark (OGBench)上的多種任務中，例如迷宮導航和機器人操作任務中，顯著優于其他方法，展現了其卓越的可擴展性和高質量的解決方案。文章提供了多個表格和圖表，展示了MCTD在不同任務上的優越性能。

研究團隊表示，未來將探索自適應計算分配、基于學習的元動作選擇和獎勵塑造等方向，以進一步提升MCTD的性能，為更具可擴展性和靈活性的System 2規劃鋪平道路。

文章來源：機器之心
作者微信：
作者簡介：專業的人工智能媒體和產業服務平臺

文章版權歸作者所有，未經允許請勿轉載。

暫無評論...