AIGC動態歡迎閱讀
原標題:Gemini 1.5 Pro裝進機器人,參觀一遍公司就能禮賓、帶路
關鍵字:機器人,目標,環境,長上,指令
文章來源:機器之心
內容字數:0字
內容摘要:
機器之心報道
編輯:張倩長上下文大模型幫助機器人理解世界。最近,谷歌 DeepMind 突然開始炫起了機器人。這個機器人可以輕松聽從人類指令、進行視覺導覽,用常識推理在三維空間中尋找路徑。
它使用的是最近谷歌發布的大模型 Gemini 1.5 Pro。在使用傳統 AI 模型時,機器人常因上下文長度限制而難以回憶起環境細節,但 Gemini 1.5 Pro 的百萬級 token 上下文長度為機器人提供了強大的環境記憶能力。
在真實的辦公室場景中,工程師引導機器人游覽特定區域,并標出了需要回憶的關鍵地點,例如「劉易斯的辦公桌」或「臨時辦公桌區域」。轉完一圈后,別人要問起來,機器人就能根據這些記憶帶他去這些地點了。即使你說不出具體要去的地點,只是表達一下目的,機器人也能帶你找到對應的位置。這是大模型的推理能力在機器人身上的具體表現。這一切離不開一個叫 Mobility VLA 的導航策略。論文標題:Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs
論文鏈接
原文鏈接:Gemini 1.5 Pro裝進機器人,參觀一遍公司就能禮賓、帶路
聯系作者
文章來源:機器之心
作者微信:almosthuman2014
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...