清華新VLA框架:突破具身智能實(shí)驗(yàn)室瓶頸,LLM成本節(jié)省高達(dá)6倍!
代號(hào)DeeR-VLA,核心在于靈活的動(dòng)態(tài)推理機(jī)制
原標(biāo)題:清華新VLA框架加速具身智能止步實(shí)驗(yàn)室“魔咒”,LLM開銷節(jié)省4-6倍 | NeurIPS'24
文章來(lái)源:量子位
內(nèi)容字?jǐn)?shù):5195字
DeeR-VLA框架的創(chuàng)新與應(yīng)用
清華大學(xué)研究團(tuán)隊(duì)提出的DeeR-VLA框架為解決多模態(tài)模型在計(jì)算與存儲(chǔ)方面的挑戰(zhàn)提供了新思路。該框架的設(shè)計(jì)靈感源于人類的決策過程,能夠根據(jù)任務(wù)的復(fù)雜性動(dòng)態(tài)調(diào)整模型的計(jì)算深度,從而顯著降低大語(yǔ)言模型(LLM)的計(jì)算成本和內(nèi)存使用。
1. 動(dòng)態(tài)推理機(jī)制
DeeR-VLA通過引入多出口架構(gòu)和特征池化方法,實(shí)現(xiàn)了靈活的動(dòng)態(tài)推理。模型在處理任務(wù)時(shí),可以根據(jù)復(fù)雜度選擇性激活不同層級(jí),避免不必要的計(jì)算浪費(fèi)。實(shí)驗(yàn)表明,DeeR-VLA在CALVIN機(jī)器人操作基準(zhǔn)測(cè)試中,LLM的計(jì)算成本減少了5.2-6.5倍,GPU內(nèi)存消耗降低了2-6倍,同時(shí)保持了任務(wù)執(zhí)行的性能。
2. 解決冗余問題
研究發(fā)現(xiàn),許多簡(jiǎn)單的機(jī)器人任務(wù)實(shí)際上可以通過較小的模型完成,而使用大型多模態(tài)模型反而造成了計(jì)算資源的浪費(fèi)。DeeR-VLA的設(shè)計(jì)實(shí)現(xiàn)了根據(jù)任務(wù)復(fù)雜性動(dòng)態(tài)調(diào)整模型規(guī)模,使得在不影響性能的前提下最大化計(jì)算效率。
3. 關(guān)鍵技術(shù)組件
框架的關(guān)鍵技術(shù)組件包括多出口MLLM結(jié)構(gòu)、特征池化方法和動(dòng)作預(yù)測(cè)頭設(shè)計(jì)。通過這些技術(shù),模型能夠在任務(wù)復(fù)雜度達(dá)到要求時(shí)提前停止計(jì)算,并生成高質(zhì)量的特征和動(dòng)作預(yù)測(cè)。這種設(shè)計(jì)使得DeeR-VLA能夠在多種硬件環(huán)境下靈活適應(yīng),滿足實(shí)時(shí)性需求。
4. 實(shí)驗(yàn)與驗(yàn)證
在CALVIN長(zhǎng)Horizon多任務(wù)語(yǔ)言控制挑戰(zhàn)(LH-MTLC)基準(zhǔn)上,DeeR-VLA展現(xiàn)出優(yōu)異的性能。在與其他最新方法比較中,它在任務(wù)成功率上保持競(jìng)爭(zhēng)力的同時(shí),顯著減少了計(jì)算資源消耗。此外,DeeR-VLA的推理速度比RoboFlamingo++快68.1%,證明了其在實(shí)際應(yīng)用中的高效性。
5. 結(jié)論與展望
DeeR-VLA框架的提出為多模態(tài)機(jī)器人的智能提升提供了新的方向,通過動(dòng)態(tài)調(diào)整計(jì)算規(guī)模,研究團(tuán)隊(duì)希望在未來(lái)的機(jī)器人應(yīng)用中實(shí)現(xiàn)更高的效能與更低的資源消耗。兩位主要作者Yue Yang和王語(yǔ)霖在強(qiáng)化學(xué)習(xí)和多模態(tài)大模型領(lǐng)域的研究,將推動(dòng)這一領(lǐng)域的進(jìn)一步發(fā)展。
聯(lián)系作者
文章來(lái)源:量子位
作者微信:
作者簡(jiǎn)介:追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破