SmolVLM是HuggingFace模型僅有2B參數,以高效內存占用著稱。
原標題:HuggingFace端側家族新成員SmolVLM解讀&實戰:僅2B參數,完全開源
文章來源:智猩猩GenAI
內容字數:8554字
引言
近年來,多模態領域發展迅猛,涌現出一系列大型視覺語言模型。然而,這些模型的計算資源需求高、部署成本大。為了解決這些問題,研究者們開始探索如何構建高效且輕量級的多模態模型。
SmolVLM概述
SmolVLM是HuggingFace推出的一款精巧型視覺語言模型,具有2B參數,特別注重內存效率。該模型完全開源,包括模型權重、數據集和訓練方案。
解決方案
SmolVLM通過創新的架構設計和優化策略來解決大型模型的資源消耗問題。其采用SmolLM2 1.7B作為語言模型基座,并使用9倍像素重排壓縮策略優化圖像處理塊大小。
效果評估
在多個視覺語言基準測試中,SmolVLM展現出優異的資源效率,內存占用最優。與Qwen2-VL相比,SmolVLM在預填充和生成吞吐量方面均有顯著提升,達到了可競爭的水平。
架構設計
SmolVLM的架構與Idefics3相似,但在語言模型和圖像處理方面進行了關鍵調整,優化了圖像塊大小和壓縮策略,以實現更高效的性能。
訓練過程
訓練SmolVLM時,首先擴展了SmolLM2的上下文長度,然后使用多種數據集進行訓練。這一過程確保了模型可以有效處理長文本和多圖像輸入。
性能基準測試
SmolVLM在內存使用和吞吐量方面表現出色,適合在資源有限的設備上運行。其編碼效率高,僅需1.2k個token即可處理單張圖像,顯著降低了內存消耗。
實戰應用
SmolVLM已與VLMEvalKit集成,方便用戶在其他基準測試上進行評估。同時,用戶可以通過transformers庫快速加載并進行微調,以適應不同的應用需求。
總結
SmolVLM作為一款開源的視覺語言多模態模型,雖然在中文性能上仍有待提升,但其出色的計算效率和資源占用優勢使其在多模態模型市場保持競爭力。對于追求輕量級、高性價比模型的開發者而言,SmolVLM是一個值得關注的選擇。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。