SmolVLA – Hugging Face開源的輕量級機器人模型

SmolVLA 是一款由 Hugging Face 發布的開源輕量級視覺-語言-行動(VLA)模型,專為經濟高效的機器人設計。該模型僅有 4.5 億參數,小巧輕便,可在 CPU 上運行,并支持在單個消費級 GPU 上進行訓練,甚至能在 MacBook 上部署。SmolVLA 基于開源數據集“lerobot”進行訓練,為機器人技術帶來了新的可能性。
SmolVLA:革新機器人技術的強大引擎
SmolVLA,這款由 Hugging Face 傾力打造的開源 VLA 模型,正在以其卓越的性能和親民的姿態,革新著機器人技術的未來。它是一款輕量級的視覺-語言-行動模型,專為追求成本效益的機器人應用而設計。 憑借其精巧的 4.5 億參數規模,SmolVLA 能夠在 CPU 上流暢運行,并且僅需單個消費級 GPU 即可完成訓練,甚至可以在您的 MacBook 上輕松部署。 這一切都得益于其基于開源數據集“lerobot”的精心訓練。
核心功能:賦能機器人的三大支柱
- 多模態信息處理: SmolVLA 具備強大的多模態輸入處理能力,能夠同時接收并解析多幅圖像、自然語言指令以及機器人的狀態信息。 它通過視覺編碼器提取圖像特征,將語言指令轉化為模型可理解的標記,并將傳感狀態映射到與語言模型對齊的標記上。
- 動作序列生成: SmolVLA 內置動作專家模塊,這是一個輕量級的 Transformer。它基于視覺-語言模型(VLM)的輸出,預測并生成機器人未來的動作序列。 動作專家采用流匹配技術進行訓練,通過引導噪聲樣本回歸真實數據分布,實現高精度、實時的控制。
- 高效推理與異步執行: SmolVLA 引入了異步推理堆棧,將動作執行與感知和預測過程分離。 這一創新設計使得機器人能夠更快地響應環境變化,顯著提升了響應速度和任務吞吐量。
技術解析:SmolVLA 的幕后英雄
- 視覺-語言模型 (VLM): SmolVLA 采用 SmolVLM2 作為其 VLM 主干,該模型專門針對多圖像輸入進行了優化。 它由一個 SigLIP 視覺編碼器和一個 SmolLM2 語言解碼器組成。圖像標記通過視覺編碼器進行提取,語言指令被標記化后直接輸入解碼器,傳感狀態通過線性層投影到一個標記上,與語言模型的標記維度對齊。 解碼器層處理連接的圖像、語言和狀態標記,生成的特征隨后傳遞給動作專家。
- 動作專家: 動作專家是一個輕量級的 Transformer(約 1 億參數),它基于 VLM 的輸出,生成機器人未來的動作序列塊。 動作專家使用流匹配技術進行訓練,通過引導噪聲樣本回歸真實數據分布來學習動作生成,從而實現高精度的實時控制。
- 視覺 Token 減少: 為了提升效率,SmolVLA 限制每幀圖像的視覺 Token 數量為 64 個,從而大幅降低了處理成本。
- 層跳躍加速推理: SmolVLA 通過跳過 VLM 中一半的層進行計算,在保證性能的同時,將計算成本減半。
- 交錯注意力層: 與傳統的 VLA 架構不同,SmolVLA 交替使用交叉注意力(CA)和自注意力(SA)層。這種設計提高了多模態信息整合的效率,并加速了推理速度。
- 異步推理: SmolVLA 采用了異步推理策略,讓機器人的“手”和“眼”能夠工作。 在這種策略下,機器人可以一邊執行當前動作,一邊開始處理新的觀察并預測下一組動作,從而消除推理延遲,提高控制頻率。
項目資源:探索 SmolVLA 的世界
- Hugging Face 模型庫: 深入了解 SmolVLA 的技術細節,并獲取模型文件: https://huggingface.co/lerobot/smolvla_base
- arXiv 技術論文: 閱讀關于 SmolVLA 的技術細節,獲取更深入的了解: https://arxiv.org/pdf/2506.01844
應用場景:SmolVLA 的無限可能
- 物體抓取與放置: SmolVLA 可以控制機械臂精準地完成抓取和放置任務。 例如,在工業生產線上,機器人可以根據視覺輸入和語言指令,準確地抓取零件并將其放置到指定位置。
- 家務勞動: SmolVLA 同樣可以應用于家庭服務機器人,幫助完成各種家務勞動。 例如,機器人可以根據自然語言指令,識別并清理房間中的雜物,或者將物品放置到指定位置。
- 貨物搬運: 在物流倉庫中,SmolVLA 可以控制機器人執行貨物的搬運任務。 機器人可以根據視覺輸入識別貨物的位置和形狀,結合語言指令,生成最優的搬運路徑和動作序列,從而提高貨物搬運的效率和準確性。
- 機器人教育: SmolVLA 還能作為機器人教育的理想工具,幫助學生和研究人員更好地理解和開發機器人技術。
常見問題解答
Q: SmolVLA 可以在哪些硬件上運行?
A: SmolVLA 可以在 CPU、單個消費級 GPU 上運行,甚至可以在 MacBook 上部署。
Q: SmolVLA 的主要優勢是什么?
A: SmolVLA 的主要優勢在于其輕量級、高效性和強大的多模態處理能力,使其成為經濟高效的機器人應用的理想選擇。
Q: 如何獲取 SmolVLA 的模型和代碼?
A: 您可以訪問 Hugging Face 模型庫,找到 SmolVLA 的模型文件和相關代碼。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...

粵公網安備 44011502001135號