ICLR 2025 | 西湖大學(xué)提出閉環(huán)擴(kuò)散控制策略,高效與閉環(huán)兼得
CL-DiffPhyCon 顯著提升了控制效率和效果。
原標(biāo)題:ICLR 2025 | 西湖大學(xué)提出閉環(huán)擴(kuò)散控制策略,高效與閉環(huán)兼得
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):12717字
西湖大學(xué)團(tuán)隊(duì)提出CL-DiffPhyCon框架:高效閉環(huán)控制復(fù)雜物理系統(tǒng)
本文介紹了西湖大學(xué)人工智能系吳泰霖團(tuán)隊(duì)最新提出的CL-DiffPhyCon框架,該框架有效解決了現(xiàn)有擴(kuò)散模型在復(fù)雜物理系統(tǒng)閉環(huán)控制中效率與效果難以兼顧的問題,相關(guān)論文已被ICLR 2025接收。
1. 研究背景:高效閉環(huán)控制的挑戰(zhàn)
在科學(xué)研究、工程實(shí)踐和具身智能等領(lǐng)域,高效閉環(huán)控制至關(guān)重要。傳統(tǒng)控制方法以及深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等方法都存在效率或適用性方面的局限。基于擴(kuò)散模型的DiffPhyCon等方法雖然在復(fù)雜物理系統(tǒng)控制中表現(xiàn)出色,但其在閉環(huán)控制應(yīng)用中面臨著高昂的采樣成本和時(shí)序一致性問題。現(xiàn)有方法難以平衡控制效果和效率,例如在線重新規(guī)劃策略(RDM)也需要額外的計(jì)算開銷和超參數(shù)調(diào)試。
2. CL-DiffPhyCon框架的核心貢獻(xiàn)
CL-DiffPhyCon框架的核心思想是解耦擴(kuò)散模型中的物理時(shí)間步和去噪過(guò)程,允許不同的物理時(shí)間步呈現(xiàn)不同的噪聲水平,從而實(shí)現(xiàn)高效的閉環(huán)控制序列生成。該方法主要有以下優(yōu)勢(shì):
高效采樣:通過(guò)異步并行去噪技術(shù),顯著減少計(jì)算成本,提高采樣效率。
閉環(huán)控制:根據(jù)環(huán)境實(shí)時(shí)反饋調(diào)整控制策略,提高控制效果。
加速采樣:可與DDIM等加速采樣技術(shù)結(jié)合,進(jìn)一步提升效率。
3. 方法介紹:同步與異步擴(kuò)散模型
CL-DiffPhyCon訓(xùn)練了兩個(gè)擴(kuò)散模型:
同步擴(kuò)散模型:預(yù)測(cè)同步聯(lián)合隱變量中的噪聲,用于采樣初始的異步聯(lián)合隱變量。
異步擴(kuò)散模型:預(yù)測(cè)異步聯(lián)合隱變量中的噪聲,用于實(shí)現(xiàn)解耦的異步去噪,并根據(jù)環(huán)境反饋進(jìn)行閉環(huán)控制。
閉環(huán)控制過(guò)程包含四個(gè)步驟:獲取當(dāng)前狀態(tài)和異步聯(lián)合隱變量;利用異步擴(kuò)散模型去噪;將控制信號(hào)輸入環(huán)境;獲取反饋并更新狀態(tài),進(jìn)入下一個(gè)時(shí)間步。
4. 理論分析與實(shí)驗(yàn)結(jié)果
論文從理論上分析了兩個(gè)擴(kuò)散模型的必要性,證明了其能夠滿足閉環(huán)控制要求。在 Burgers 方程控制和二維煙霧間接控制兩個(gè)任務(wù)上,CL-DiffPhyCon均顯著優(yōu)于對(duì)比方法,包括PID、行為克隆、BPPO、RDM和DiffPhyCon等。在采樣效率方面,CL-DiffPhyCon比其他方法快數(shù)倍,結(jié)合DDIM后加速效果更明顯。
5. 總結(jié)與展望
CL-DiffPhyCon為高效閉環(huán)控制提供了一種創(chuàng)新方案,在復(fù)雜物理系統(tǒng)控制中具有顯著優(yōu)勢(shì)。未來(lái)研究方向包括探索在線學(xué)習(xí)和優(yōu)化采樣策略,以及進(jìn)一步研究誤差界。
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)