清華新VLA框架:突破具身智能實驗室瓶頸,LLM成本節(jié)省高達6倍!
代號DeeR-VLA,核心在于靈活的動態(tài)推理機制
原標(biāo)題:清華新VLA框架加速具身智能止步實驗室“魔咒”,LLM開銷節(jié)省4-6倍 | NeurIPS'24
文章來源:量子位
內(nèi)容字數(shù):5195字
DeeR-VLA框架的創(chuàng)新與應(yīng)用
清華大學(xué)研究團隊提出的DeeR-VLA框架為解決多模態(tài)模型在計算與存儲方面的挑戰(zhàn)提供了新思路。該框架的設(shè)計靈感源于人類的決策過程,能夠根據(jù)任務(wù)的復(fù)雜性動態(tài)調(diào)整模型的計算深度,從而顯著降低大語言模型(LLM)的計算成本和內(nèi)存使用。
1. 動態(tài)推理機制
DeeR-VLA通過引入多出口架構(gòu)和特征池化方法,實現(xiàn)了靈活的動態(tài)推理。模型在處理任務(wù)時,可以根據(jù)復(fù)雜度選擇性激活不同層級,避免不必要的計算浪費。實驗表明,DeeR-VLA在CALVIN機器人操作基準(zhǔn)測試中,LLM的計算成本減少了5.2-6.5倍,GPU內(nèi)存消耗降低了2-6倍,同時保持了任務(wù)執(zhí)行的性能。
2. 解決冗余問題
研究發(fā)現(xiàn),許多簡單的機器人任務(wù)實際上可以通過較小的模型完成,而使用大型多模態(tài)模型反而造成了計算資源的浪費。DeeR-VLA的設(shè)計實現(xiàn)了根據(jù)任務(wù)復(fù)雜性動態(tài)調(diào)整模型規(guī)模,使得在不影響性能的前提下最大化計算效率。
3. 關(guān)鍵技術(shù)組件
框架的關(guān)鍵技術(shù)組件包括多出口MLLM結(jié)構(gòu)、特征池化方法和動作預(yù)測頭設(shè)計。通過這些技術(shù),模型能夠在任務(wù)復(fù)雜度達到要求時提前停止計算,并生成高質(zhì)量的特征和動作預(yù)測。這種設(shè)計使得DeeR-VLA能夠在多種硬件環(huán)境下靈活適應(yīng),滿足實時性需求。
4. 實驗與驗證
在CALVIN長Horizon多任務(wù)語言控制挑戰(zhàn)(LH-MTLC)基準(zhǔn)上,DeeR-VLA展現(xiàn)出優(yōu)異的性能。在與其他最新方法比較中,它在任務(wù)成功率上保持競爭力的同時,顯著減少了計算資源消耗。此外,DeeR-VLA的推理速度比RoboFlamingo++快68.1%,證明了其在實際應(yīng)用中的高效性。
5. 結(jié)論與展望
DeeR-VLA框架的提出為多模態(tài)機器人的智能提升提供了新的方向,通過動態(tài)調(diào)整計算規(guī)模,研究團隊希望在未來的機器人應(yīng)用中實現(xiàn)更高的效能與更低的資源消耗。兩位主要作者Yue Yang和王語霖在強化學(xué)習(xí)和多模態(tài)大模型領(lǐng)域的研究,將推動這一領(lǐng)域的進一步發(fā)展。
聯(lián)系作者
文章來源:量子位
作者微信:
作者簡介:追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破