NavFoM – 銀河通用推出的環(huán)視導航基座大模型
NavFoM,即導航基礎模型(Navigation Foundation Model),是銀河通用聯(lián)合北京大學、阿德萊德大學、浙江大學等頂尖科研團隊共同研發(fā)的全球首個能夠跨越不同本體(機器人形態(tài))并覆蓋全域環(huán)境的環(huán)視導航大模型。它擁有強大的全場景適應能力,能夠無縫切換于室內與室外環(huán)境,甚至在從未見過的場景下也能實現(xiàn)零樣本(zero-shot)的精準導航,無需額外的地圖構建或數(shù)據(jù)收集工作。
NavFoM 的核心亮點
- 場景通行:NavFoM打破了室內外的界限,全方位支持各類環(huán)境,并在陌生場景下展現(xiàn)出卓越的零樣本導航能力,極大提升了環(huán)境適應性和部署效率。
- 多任務指令響應:該模型能夠靈活響應多種導航指令,包括通過自然語言進行的目標跟隨和自主導航,確保機器人能夠精確執(zhí)行多樣化的任務。
- 跨平臺通用適配:NavFoM具備極強的跨本體適配性,能夠以較低的成本快速集成到機器狗、輪式及腿式人形機器人、無人機、汽車等各種形態(tài)各異的硬件平臺,實現(xiàn)廣泛的應用。
- 前沿技術驅動:其核心技術創(chuàng)新體現(xiàn)在TVI Tokens(時空視角索引標記)和BATS策略(預算感知標記采樣)。TVI Tokens賦予模型對時間和視角的深度理解,而BATS策略則使其在有限的計算資源下依然能夠做出明智決策,顯著提升了模型性能。
- 顛覆性統(tǒng)一范式:NavFoM構建了一個全新的通用導航范式:“視頻流 + 文本指令 → 動作軌跡”。這一端到端的處理方式,摒棄了傳統(tǒng)的模塊化拼接,實現(xiàn)了從“感知”到“理解”再到“行動”的完整流程的無縫銜接。
- 海量數(shù)據(jù)支撐:為了訓練NavFoM,研究團隊構建了規(guī)模龐大的跨任務數(shù)據(jù)集,其中包括約八百萬條涵蓋不同任務和本體的導航數(shù)據(jù),以及四百萬條開放式問答數(shù)據(jù),為模型的強大泛化能力奠定了堅實基礎。
NavFoM 的技術基石
- TVI Tokens(Temporal-Viewpoint-Indexed Tokens):通過為時間維度和視角維度分配獨特的標記,NavFoM得以深入理解環(huán)境的動態(tài)變化和不同觀察角度的信息,從而在復雜動態(tài)環(huán)境中實現(xiàn)更精準的導航。
- BATS策略(Budget-Aware Token Sampling):面對計算資源受限的挑戰(zhàn),BATS策略通過智能地選擇和采樣標記,確保模型在效率與性能之間取得最佳平衡,使其更適合在實際部署中運行。
- 端到端的通用框架:該模型采用“視頻流 + 文本指令 → 動作軌跡”的統(tǒng)一處理流程,將視覺感知、語言理解和控制緊密結合,直接將輸入信息轉化為輸出動作,極大地簡化了導航系統(tǒng)的設計和實現(xiàn)。
- 海量跨任務數(shù)據(jù)集:匯聚了約八百萬條導航數(shù)據(jù)和四百萬條開放問答數(shù)據(jù)的龐大跨任務數(shù)據(jù)集,為NavFoM提供了豐富的多場景、多任務訓練樣本,顯著增強了模型在不同環(huán)境和任務下的泛化能力。
NavFoM 的廣闊應用前景
- 機器人自主導航:在商場、機場等復雜公共場所,NavFoM能夠驅動機器人根據(jù)自然語言指令進行自主導航和目標跟隨,提供高效的服務和引導。
- 智能自動駕駛:為汽車自動駕駛系統(tǒng)注入更強的能力,提升車輛在復雜交通環(huán)境下的自主決策和導航精度,從而增強自動駕駛的安全性和可靠性。
- 無人機智能飛控:賦能無人機在復雜地形和多變環(huán)境下實現(xiàn)自主飛行和任務執(zhí)行,例如在物流配送、環(huán)境監(jiān)測等領域發(fā)揮重要作用。
- 人形機器人交互:支持輪式和腿式等各類人形機器人,使其能夠更好地適應多樣化的環(huán)境,并完成更復雜的導航與人機交互任務。
- 定制化應用開發(fā):NavFoM作為強大的基礎模型,為開發(fā)者提供了極大的便利,可以通過后續(xù)的微調和訓練,快速開發(fā)出滿足特定導航需求的專業(yè)應用模型,進一步拓展其在各行各業(yè)的應用邊界。
? 版權聲明
文章版權歸作者所有,未經(jīng)允許請勿轉載。
相關文章
暫無評論...

粵公網(wǎng)安備 44011502001135號