ICLR 2025 | 西湖大學(xué)提出閉環(huán)擴(kuò)散控制策略，高效與閉環(huán)兼得

CL-DiffPhyCon 顯著提升了控制效率和效果。

原標(biāo)題：ICLR 2025 | 西湖大學(xué)提出閉環(huán)擴(kuò)散控制策略，高效與閉環(huán)兼得
文章來(lái)源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：12717字

西湖大學(xué)團(tuán)隊(duì)提出CL-DiffPhyCon框架：高效閉環(huán)控制復(fù)雜物理系統(tǒng)

本文介紹了西湖大學(xué)人工智能系吳泰霖團(tuán)隊(duì)最新提出的CL-DiffPhyCon框架，該框架有效解決了現(xiàn)有擴(kuò)散模型在復(fù)雜物理系統(tǒng)閉環(huán)控制中效率與效果難以兼顧的問題，相關(guān)論文已被ICLR 2025接收。

1. 研究背景：高效閉環(huán)控制的挑戰(zhàn)

在科學(xué)研究、工程實(shí)踐和具身智能等領(lǐng)域，高效閉環(huán)控制至關(guān)重要。傳統(tǒng)控制方法以及深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等方法都存在效率或適用性方面的局限。基于擴(kuò)散模型的DiffPhyCon等方法雖然在復(fù)雜物理系統(tǒng)控制中表現(xiàn)出色，但其在閉環(huán)控制應(yīng)用中面臨著高昂的采樣成本和時(shí)序一致性問題。現(xiàn)有方法難以平衡控制效果和效率，例如在線重新規(guī)劃策略（RDM）也需要額外的計(jì)算開銷和超參數(shù)調(diào)試。

2. CL-DiffPhyCon框架的核心貢獻(xiàn)

CL-DiffPhyCon框架的核心思想是解耦擴(kuò)散模型中的物理時(shí)間步和去噪過程，允許不同的物理時(shí)間步呈現(xiàn)不同的噪聲水平，從而實(shí)現(xiàn)高效的閉環(huán)控制序列生成。該方法主要有以下優(yōu)勢(shì)：

高效采樣：通過異步并行去噪技術(shù)，顯著減少計(jì)算成本，提高采樣效率。
閉環(huán)控制：根據(jù)環(huán)境實(shí)時(shí)反饋調(diào)整控制策略，提高控制效果。
加速采樣：可與DDIM等加速采樣技術(shù)結(jié)合，進(jìn)一步提升效率。

3. 方法介紹：同步與異步擴(kuò)散模型

CL-DiffPhyCon訓(xùn)練了兩個(gè)擴(kuò)散模型：

同步擴(kuò)散模型：預(yù)測(cè)同步聯(lián)合隱變量中的噪聲，用于采樣初始的異步聯(lián)合隱變量。
異步擴(kuò)散模型：預(yù)測(cè)異步聯(lián)合隱變量中的噪聲，用于實(shí)現(xiàn)解耦的異步去噪，并根據(jù)環(huán)境反饋進(jìn)行閉環(huán)控制。

閉環(huán)控制過程包含四個(gè)步驟：獲取當(dāng)前狀態(tài)和異步聯(lián)合隱變量；利用異步擴(kuò)散模型去噪；將控制信號(hào)輸入環(huán)境；獲取反饋并更新狀態(tài)，進(jìn)入下一個(gè)時(shí)間步。

4. 理論分析與實(shí)驗(yàn)結(jié)果

論文從理論上分析了兩個(gè)擴(kuò)散模型的必要性，證明了其能夠滿足閉環(huán)控制要求。在 Burgers 方程控制和二維煙霧間接控制兩個(gè)任務(wù)上，CL-DiffPhyCon均顯著優(yōu)于對(duì)比方法，包括PID、行為克隆、BPPO、RDM和DiffPhyCon等。在采樣效率方面，CL-DiffPhyCon比其他方法快數(shù)倍，結(jié)合DDIM后加速效果更明顯。