VLN-R1 – 港大聯(lián)合上海AI lab推出的具身智能框架
VLN-R1,由香港大學(xué)與上海人工智能實(shí)驗(yàn)室攜手打造,是一個(gè)革新性的具身智能框架。它巧妙地運(yùn)用大型視覺語言模型(LVLM),將第一人稱視角下的視頻流轉(zhuǎn)化為流暢的導(dǎo)航指令。該框架基于Habitat 3D模擬器構(gòu)建了VLN-Ego數(shù)據(jù)集,并采用長短期記憶采樣策略,精妙地平衡了歷史信息與即時(shí)觀測。VLN-R1通過兩階段訓(xùn)練:監(jiān)督微調(diào)(SFT)與強(qiáng)化微調(diào)(RFT),在VLN-CE基準(zhǔn)測試中展現(xiàn)出卓越性能,證明了LVLM在具身導(dǎo)航領(lǐng)域的強(qiáng)大潛力。
VLN-R1:開啟智能導(dǎo)航新篇章
VLN-R1,這款由香港大學(xué)與上海人工智能實(shí)驗(yàn)室聯(lián)合研發(fā)的創(chuàng)新型具身智能框架,正引領(lǐng)著智能導(dǎo)航領(lǐng)域的新潮流。它以大型視覺語言模型(LVLM)為核心,能夠直接將第一人稱視角下的視頻流轉(zhuǎn)化為連續(xù)的導(dǎo)航動(dòng)作,從而實(shí)現(xiàn)智能體在復(fù)雜環(huán)境中的自主移動(dòng)。
核心特性:功能一覽
- 無縫環(huán)境導(dǎo)航:告別了對預(yù)定義節(jié)點(diǎn)的依賴,VLN-R1能引導(dǎo)智能體在廣闊的3D空間中穿梭,實(shí)現(xiàn)真正的連續(xù)導(dǎo)航。
- 精準(zhǔn)動(dòng)作生成:它能生成四種基礎(chǔ)動(dòng)作指令,包括“前進(jìn)”、“左轉(zhuǎn)”、“右轉(zhuǎn)”和“停止”,從而實(shí)現(xiàn)對導(dǎo)航的精細(xì)控制。
- 高效數(shù)據(jù)利用:通過監(jiān)督微調(diào)(SFT)和強(qiáng)化微調(diào)(RFT)相結(jié)合的訓(xùn)練方式,VLN-R1能夠在有限的數(shù)據(jù)集下實(shí)現(xiàn)高效訓(xùn)練,顯著提升導(dǎo)航性能。
- 靈活跨域適應(yīng):得益于強(qiáng)化微調(diào)(RFT)的強(qiáng)大能力,即使面對全新的導(dǎo)航任務(wù)或環(huán)境,VLN-R1也能迅速適應(yīng),即使僅有少量數(shù)據(jù)也能保持出色的表現(xiàn)。
- 深度任務(wù)理解:采用了時(shí)間衰減獎(jiǎng)勵(lì)(TDR)機(jī)制,優(yōu)化了對多步未來動(dòng)作的預(yù)測,從而顯著增強(qiáng)了長期導(dǎo)航的穩(wěn)定性。
技術(shù)剖析:深入了解VLN-R1
- 數(shù)據(jù)基石:VLN-Ego數(shù)據(jù)集:該數(shù)據(jù)集基于Habitat 3D模擬器構(gòu)建,包含了第一人稱視角下的視頻流以及對應(yīng)的未來動(dòng)作預(yù)測,為模型訓(xùn)練提供了堅(jiān)實(shí)的數(shù)據(jù)支持。
- 時(shí)間序列處理:長短期記憶采樣:在處理視頻輸入時(shí),運(yùn)用長短期記憶采樣策略,動(dòng)態(tài)調(diào)整歷史幀與實(shí)時(shí)信息的權(quán)重,確保模型既能關(guān)注短期關(guān)聯(lián),又能捕捉長期上下文信息。
- 動(dòng)作對齊:監(jiān)督微調(diào)(SFT):通過最小化模型預(yù)測文本與專家演示文本之間的差異,使模型的動(dòng)作序列預(yù)測與真實(shí)動(dòng)作保持一致,確保模型能準(zhǔn)確理解指令并生成相應(yīng)的動(dòng)作。
- 長期優(yōu)化:強(qiáng)化微調(diào)(RFT):基于組相對策略優(yōu)化(GRPO)的強(qiáng)化學(xué)習(xí)方法,利用時(shí)間衰減獎(jiǎng)勵(lì)(TDR)機(jī)制,對多步未來動(dòng)作的預(yù)測進(jìn)行評估和優(yōu)化,從而提升模型在長期導(dǎo)航任務(wù)中的性能。
- 核心引擎:大型視覺語言模型(LVLM):VLN-R1的核心在于采用了先進(jìn)的LVLM,例如Qwen2-VL,它能夠處理視覺和語言輸入,實(shí)現(xiàn)從第一人稱視頻流到導(dǎo)航動(dòng)作的直接映射,從而增強(qiáng)模型的泛化能力和適應(yīng)性。
歡迎探索:項(xiàng)目資源
- 項(xiàng)目官網(wǎng):https://vlnr1.github.io/
- GitHub倉庫:https://github.com/Qi-Zhangyang/GPT4Scene-and-VLN-R1
- arXiv技術(shù)論文:https://arxiv.org/pdf/2506.17221
應(yīng)用場景:無限可能
- 智能家居服務(wù):讓家庭服務(wù)機(jī)器人能夠根據(jù)用戶自然語言指令,在家中穿梭,完成清潔、物品取放等任務(wù),極大地提升生活便利性。
- 工業(yè)自動(dòng)化:在工廠車間,協(xié)助機(jī)器人靈活地按照操作員的指令進(jìn)行導(dǎo)航,完成物料搬運(yùn)和設(shè)備維護(hù),從而提高生產(chǎn)效率。
- 智慧倉儲管理:支持倉庫機(jī)器人根據(jù)指令在貨架間精準(zhǔn)移動(dòng),高效完成貨物存儲與檢索,優(yōu)化倉儲管理流程。
- 醫(yī)療健康領(lǐng)域:幫助醫(yī)院或養(yǎng)老院的機(jī)器人按照醫(yī)護(hù)人員或患者的指令進(jìn)行導(dǎo)航,例如送藥、送餐等,從而減輕醫(yī)護(hù)人員的負(fù)擔(dān)。
- 未來交通:助力自動(dòng)駕駛汽車在復(fù)雜的城市環(huán)境中,根據(jù)交通信號和指令進(jìn)行導(dǎo)航,提升行駛安全性和靈活性。
常見問題解答
Q: VLN-R1與傳統(tǒng)的導(dǎo)航方法有什么不同?
A: VLN-R1基于LVLM,能夠直接從第一人稱視頻流中學(xué)習(xí),實(shí)現(xiàn)端到端的導(dǎo)航,無需預(yù)先構(gòu)建地圖或依賴復(fù)雜的環(huán)境感知模塊。這使其更具靈活性和適應(yīng)性。
Q: VLN-R1的訓(xùn)練需要大量數(shù)據(jù)嗎?
A: 盡管VLN-R1利用了大型視覺語言模型,但其訓(xùn)練過程采用了高效的數(shù)據(jù)利用策略,如監(jiān)督微調(diào)和強(qiáng)化微調(diào),使其能夠在有限的數(shù)據(jù)集下實(shí)現(xiàn)良好的性能。
Q: VLN-R1能夠適應(yīng)新的環(huán)境嗎?
A: 是的,VLN-R1具備跨領(lǐng)域適應(yīng)能力,通過強(qiáng)化微調(diào),即使面對新的導(dǎo)航環(huán)境,也能快速適應(yīng),展現(xiàn)出強(qiáng)大的泛化能力。

粵公網(wǎng)安備 44011502001135號