VLN-R1

VLN-R1 – 港大聯合上海AI lab推出的具身智能框架

VLN-R1，由香港大學與上海人工智能實驗室攜手打造，是一個革新性的具身智能框架。它巧妙地運用大型視覺語言模型（LVLM），將第一人稱視角下的視頻流轉化為流暢的導航指令。該框架基于Habitat 3D模擬器構建了VLN-Ego數據集，并采用長短期記憶采樣策略，精妙地平衡了歷史信息與即時觀測。VLN-R1通過兩階段訓練：監督微調（SFT）與強化微調（RFT），在VLN-CE基準測試中展現出卓越性能，證明了LVLM在具身導航領域的強大潛力。

VLN-R1：開啟智能導航新篇章

VLN-R1，這款由香港大學與上海人工智能實驗室聯合研發的創新型具身智能框架，正引領著智能導航領域的新潮流。它以大型視覺語言模型（LVLM）為核心，能夠直接將第一人稱視角下的視頻流轉化為連續的導航動作，從而實現智能體在復雜環境中的自主移動。

核心特性：功能一覽

無縫環境導航：告別了對預定義節點的依賴，VLN-R1能引導智能體在廣闊的3D空間中穿梭，實現真正的連續導航。
精準動作生成：它能生成四種基礎動作指令，包括“前進”、“左轉”、“右轉”和“停止”，從而實現對導航的精細控制。
高效數據利用：通過監督微調（SFT）和強化微調（RFT）相結合的訓練方式，VLN-R1能夠在有限的數據集下實現高效訓練，顯著提升導航性能。
靈活跨域適應：得益于強化微調（RFT）的強大能力，即使面對全新的導航任務或環境，VLN-R1也能迅速適應，即使僅有少量數據也能保持出色的表現。
深度任務理解：采用了時間衰減獎勵（TDR）機制，優化了對多步未來動作的預測，從而顯著增強了長期導航的穩定性。

技術剖析：深入了解VLN-R1

數據基石：VLN-Ego數據集：該數據集基于Habitat 3D模擬器構建，包含了第一人稱視角下的視頻流以及對應的未來動作預測，為模型訓練提供了堅實的數據支持。
時間序列處理：長短期記憶采樣：在處理視頻輸入時，運用長短期記憶采樣策略，動態調整歷史幀與實時信息的權重，確保模型既能關注短期關聯，又能捕捉長期上下文信息。
動作對齊：監督微調（SFT）：通過最小化模型預測文本與專家演示文本之間的差異，使模型的動作序列預測與真實動作保持一致，確保模型能準確理解指令并生成相應的動作。
長期優化：強化微調（RFT）：基于組相對策略優化（GRPO）的強化學習方法，利用時間衰減獎勵（TDR）機制，對多步未來動作的預測進行評估和優化，從而提升模型在長期導航任務中的性能。
核心引擎：大型視覺語言模型（LVLM）：VLN-R1的核心在于采用了先進的LVLM，例如Qwen2-VL，它能夠處理視覺和語言輸入，實現從第一人稱視頻流到導航動作的直接映射，從而增強模型的泛化能力和適應性。