SmolVLA – Hugging Face開源的輕量級機器人模型
SmolVLA 是一款由 Hugging Face 發(fā)布的開源輕量級視覺-語言-行動(VLA)模型,專為經(jīng)濟高效的機器人設(shè)計。該模型僅有 4.5 億參數(shù),小巧輕便,可在 CPU 上運行,并支持在單個消費級 GPU 上進行訓(xùn)練,甚至能在 MacBook 上部署。SmolVLA 基于開源數(shù)據(jù)集“l(fā)erobot”進行訓(xùn)練,為機器人技術(shù)帶來了新的可能性。
SmolVLA:革新機器人技術(shù)的強大引擎
SmolVLA,這款由 Hugging Face 傾力打造的開源 VLA 模型,正在以其卓越的性能和親民的姿態(tài),革新著機器人技術(shù)的未來。它是一款輕量級的視覺-語言-行動模型,專為追求成本效益的機器人應(yīng)用而設(shè)計。 憑借其精巧的 4.5 億參數(shù)規(guī)模,SmolVLA 能夠在 CPU 上流暢運行,并且僅需單個消費級 GPU 即可完成訓(xùn)練,甚至可以在您的 MacBook 上輕松部署。 這一切都得益于其基于開源數(shù)據(jù)集“l(fā)erobot”的精心訓(xùn)練。
核心功能:賦能機器人的三大支柱
- 多模態(tài)信息處理: SmolVLA 具備強大的多模態(tài)輸入處理能力,能夠同時接收并解析多幅圖像、自然語言指令以及機器人的狀態(tài)信息。 它通過視覺編碼器提取圖像特征,將語言指令轉(zhuǎn)化為模型可理解的標(biāo)記,并將傳感狀態(tài)映射到與語言模型對齊的標(biāo)記上。
- 動作序列生成: SmolVLA 內(nèi)置動作專家模塊,這是一個輕量級的 Transformer。它基于視覺-語言模型(VLM)的輸出,預(yù)測并生成機器人未來的動作序列。 動作專家采用流匹配技術(shù)進行訓(xùn)練,通過引導(dǎo)噪聲樣本回歸真實數(shù)據(jù)分布,實現(xiàn)高精度、實時的控制。
- 高效推理與異步執(zhí)行: SmolVLA 引入了異步推理堆棧,將動作執(zhí)行與感知和預(yù)測過程分離。 這一創(chuàng)新設(shè)計使得機器人能夠更快地響應(yīng)環(huán)境變化,顯著提升了響應(yīng)速度和任務(wù)吞吐量。
技術(shù)解析:SmolVLA 的幕后英雄
- 視覺-語言模型 (VLM): SmolVLA 采用 SmolVLM2 作為其 VLM 主干,該模型專門針對多圖像輸入進行了優(yōu)化。 它由一個 SigLIP 視覺編碼器和一個 SmolLM2 語言解碼器組成。圖像標(biāo)記通過視覺編碼器進行提取,語言指令被標(biāo)記化后直接輸入解碼器,傳感狀態(tài)通過線性層投影到一個標(biāo)記上,與語言模型的標(biāo)記維度對齊。 解碼器層處理連接的圖像、語言和狀態(tài)標(biāo)記,生成的特征隨后傳遞給動作專家。
- 動作專家: 動作專家是一個輕量級的 Transformer(約 1 億參數(shù)),它基于 VLM 的輸出,生成機器人未來的動作序列塊。 動作專家使用流匹配技術(shù)進行訓(xùn)練,通過引導(dǎo)噪聲樣本回歸真實數(shù)據(jù)分布來學(xué)習(xí)動作生成,從而實現(xiàn)高精度的實時控制。
- 視覺 Token 減少: 為了提升效率,SmolVLA 限制每幀圖像的視覺 Token 數(shù)量為 64 個,從而大幅降低了處理成本。
- 層跳躍加速推理: SmolVLA 通過跳過 VLM 中一半的層進行計算,在保證性能的同時,將計算成本減半。
- 交錯注意力層: 與傳統(tǒng)的 VLA 架構(gòu)不同,SmolVLA 交替使用交叉注意力(CA)和自注意力(SA)層。這種設(shè)計提高了多模態(tài)信息整合的效率,并加速了推理速度。
- 異步推理: SmolVLA 采用了異步推理策略,讓機器人的“手”和“眼”能夠工作。 在這種策略下,機器人可以一邊執(zhí)行當(dāng)前動作,一邊開始處理新的觀察并預(yù)測下一組動作,從而消除推理延遲,提高控制頻率。
項目資源:探索 SmolVLA 的世界
- Hugging Face 模型庫: 深入了解 SmolVLA 的技術(shù)細(xì)節(jié),并獲取模型文件: https://huggingface.co/lerobot/smolvla_base
- arXiv 技術(shù)論文: 閱讀關(guān)于 SmolVLA 的技術(shù)細(xì)節(jié),獲取更深入的了解: https://arxiv.org/pdf/2506.01844
應(yīng)用場景:SmolVLA 的無限可能
- 物體抓取與放置: SmolVLA 可以控制機械臂精準(zhǔn)地完成抓取和放置任務(wù)。 例如,在工業(yè)生產(chǎn)線上,機器人可以根據(jù)視覺輸入和語言指令,準(zhǔn)確地抓取零件并將其放置到指定位置。
- 家務(wù)勞動: SmolVLA 同樣可以應(yīng)用于家庭服務(wù)機器人,幫助完成各種家務(wù)勞動。 例如,機器人可以根據(jù)自然語言指令,識別并清理房間中的雜物,或者將物品放置到指定位置。
- 貨物搬運: 在物流倉庫中,SmolVLA 可以控制機器人執(zhí)行貨物的搬運任務(wù)。 機器人可以根據(jù)視覺輸入識別貨物的位置和形狀,結(jié)合語言指令,生成最優(yōu)的搬運路徑和動作序列,從而提高貨物搬運的效率和準(zhǔn)確性。
- 機器人教育: SmolVLA 還能作為機器人教育的理想工具,幫助學(xué)生和研究人員更好地理解和開發(fā)機器人技術(shù)。
常見問題解答
Q: SmolVLA 可以在哪些硬件上運行?
A: SmolVLA 可以在 CPU、單個消費級 GPU 上運行,甚至可以在 MacBook 上部署。
Q: SmolVLA 的主要優(yōu)勢是什么?
A: SmolVLA 的主要優(yōu)勢在于其輕量級、高效性和強大的多模態(tài)處理能力,使其成為經(jīng)濟高效的機器人應(yīng)用的理想選擇。
Q: 如何獲取 SmolVLA 的模型和代碼?
A: 您可以訪問 Hugging Face 模型庫,找到 SmolVLA 的模型文件和相關(guān)代碼。