Gemini Robotics On-Device

Gemini Robotics On-Device – 谷歌推出的首個(gè)本地具身智能模型

Gemini Robotics On-Device是谷歌DeepMind研發(fā)的尖端視覺(jué)-語(yǔ)言-動(dòng)作（VLA）模型，它能夠在機(jī)器人本地運(yùn)行，無(wú)需依賴云端。這款模型擁有強(qiáng)大的離線操作能力，能夠根據(jù)自然語(yǔ)言指令執(zhí)行細(xì)致入微的任務(wù)，例如打開(kāi)包裝袋、疊衣服等。它支持多種機(jī)器人平臺(tái)，并具有低延遲的響應(yīng)速度，特別適用于對(duì)時(shí)間敏感的應(yīng)用。開(kāi)發(fā)者僅需少量演示樣本，即可快速訓(xùn)練模型適應(yīng)新任務(wù)，展現(xiàn)出卓越的泛化能力。

Gemini Robotics On-Device 詳解

Gemini Robotics On-Device，是谷歌DeepMind的匠心之作，它是一款開(kāi)創(chuàng)性的視覺(jué)-語(yǔ)言-動(dòng)作（VLA）模型，能在機(jī)器人設(shè)備上實(shí)現(xiàn)本地運(yùn)行。這意味著機(jī)器人可以擺脫對(duì)云端計(jì)算的依賴，即便在沒(méi)有網(wǎng)絡(luò)連接或網(wǎng)絡(luò)狀況不佳的環(huán)境下，也能穩(wěn)定地執(zhí)行任務(wù)。這款模型堪稱(chēng)是機(jī)器人領(lǐng)域的“多面手”，能夠理解人類(lèi)的自然語(yǔ)言指令，并執(zhí)行復(fù)雜的多步驟操作，例如打開(kāi)包裝袋、疊衣服、給午餐盒拉拉鏈等。它支持從人形機(jī)器人到工業(yè)雙臂機(jī)器人的多種機(jī)器人平臺(tái)，展現(xiàn)出驚人的靈活性。

核心功能一覽

本地自主運(yùn)行：Gemini Robotics On-Device 完全在機(jī)器人本地工作，避免了網(wǎng)絡(luò)延遲和連接問(wèn)題，確保了任務(wù)的穩(wěn)定執(zhí)行。
理解自然語(yǔ)言：模型能夠理解人類(lèi)的自然語(yǔ)言指令，并根據(jù)指令執(zhí)行相應(yīng)的動(dòng)作。
執(zhí)行精細(xì)操作：無(wú)論是人形機(jī)器人還是工業(yè)機(jī)器人，Gemini Robotics On-Device 都能勝任，例如疊衣服、裝配零件等。
快速適應(yīng)新任務(wù)：通過(guò)少量演示樣本，開(kāi)發(fā)者即可訓(xùn)練模型適應(yīng)新任務(wù)，提升機(jī)器人的靈活性。
跨平臺(tái)兼容：模型能夠輕松遷移到不同的機(jī)器人平臺(tái)上，展現(xiàn)出強(qiáng)大的泛化能力。

產(chǎn)品官網(wǎng)

項(xiàng)目官網(wǎng)

應(yīng)用場(chǎng)景

制造業(yè)：在生產(chǎn)線上執(zhí)行復(fù)雜的裝配任務(wù)，提高生產(chǎn)效率和質(zhì)量。
物流倉(cāng)儲(chǔ)：協(xié)助搬運(yùn)貨物、管理庫(kù)存，優(yōu)化物流流程。
醫(yī)療護(hù)理：輔助醫(yī)護(hù)人員進(jìn)行手術(shù)器械傳遞、康復(fù)訓(xùn)練指導(dǎo)等工作。
家庭服務(wù)：幫助完成家務(wù)勞動(dòng)，提升生活便利性。
零售服務(wù)：在商場(chǎng)、超市等場(chǎng)所提供商品信息查詢、購(gòu)物引導(dǎo)等服務(wù)。

常見(jiàn)問(wèn)題解答

Q: Gemini Robotics On-Device 的安全性如何保障？

A: 模型采用了基于語(yǔ)義安全和物理安全并重的整體安全方案。它會(huì)基于 Live API 捕獲語(yǔ)義和內(nèi)容安全問(wèn)題，并與底層安全關(guān)鍵控制器接口，確保機(jī)器人的動(dòng)作符合物理安全要求。

Q: 開(kāi)發(fā)者如何使用 Gemini Robotics On-Device 進(jìn)行開(kāi)發(fā)？

A: 谷歌推出了 Gemini Robotics SDK，為開(kāi)發(fā)者提供了評(píng)估和部署模型的工具，降低了開(kāi)發(fā)成本和風(fēng)險(xiǎn)。開(kāi)發(fā)者可以通過(guò)微調(diào)功能，使用少量演示樣本來(lái)訓(xùn)練模型。

閱讀原文