SmolVLM：輕量級視覺語言模型助力多模態任務的高效解決方案

SmolVLM是Hugging Face推出的一款輕量級視覺語言模型，旨在為設備端推理提供高效解決方案。它以20億的參數量，優化了內存占用并提升了處理速度。SmolVLM有三個版本可供選擇：SmolVLM-Base，適合下游任務的微調；SmolVLM-Synthetic，基于合成數據進行微調；以及SmolVLM-Instruct，專為交互式應用而設計的指令微調版本。

SmolVLM是什么

SmolVLM是一款由Hugging Face開發的輕量級視覺語言模型，專注于設備端推理。其設計以20億參數為基礎，實現了卓越的內存使用效率和處理速度。SmolVLM有三個版本，旨在滿足不同用戶的需求：SmolVLM-Base適合于下游任務的微調；SmolVLM-Synthetic則基于合成數據進行微調；而SmolVLM-Instruct則是指令微調版本，適合直接用于交互式應用。該模型借鑒了Idefics3的理念，采用SmolLM2 1.7B作為語言主干，并通過像素混洗技術提高了視覺信息的壓縮效率。經過在Cauldron和Docmatix數據集的訓練，優化了圖像編碼及文本處理能力。

SmolVLM的主要功能

設備端推理：SmolVLM專為設備端推理設計，能夠在筆記本電腦、消費級GPU或移動設備等資源有限的環境中高效運作。
微調能力：模型提供三個版本以滿足不同需求：
- SmolVLM-Base用于下游任務的微調；
- SmolVLM-Synthetic基于合成數據進行微調；
- SmolVLM-Instruct指令微調版本，適合直接應用于交互式場景。
優化的架構設計：該模型借鑒了Idefics3理念，使用SmolLM2 1.7B作為語言主干，并通過像素混洗策略提高視覺信息的壓縮率，從而實現更高效的視覺信息處理。
處理長文本和多張圖像：訓練數據集包括Cauldron和Docmatix，對SmolLM2進行了上下文擴展，使其能夠處理更長的文本序列和多張圖像。
低內存占用：SmolVLM將384×384像素的圖像塊編碼為81個tokens，而Qwen2-VL則需要1.6萬個tokens，顯著降低了內存占用。
高吞吐量：在多個基準測試中，SmolVLM的預填充吞吐量比Qwen2-VL快3.3到4.5倍，生成吞吐量快7.5到16倍。
開源模型：SmolVLM完全開源，所有模型檢查點、VLM數據集、訓練配方和工具均在Apache 2.0許可證下發布。
訓練數據集：SmolVLM涵蓋了Cauldron和Docmatix，并對SmolLM2進行了上下文擴展，使其能夠處理更長的文本序列和多張圖像。

SmolVLM的項目地址

Github倉庫：https://github.com/huggingface/blog/blob/main/smolvlm.md
HuggingFace模型庫：https://huggingface.co/blog/smolvlm
在線體驗Demo：https://huggingface.co/spaces/HuggingFaceTB/SmolVLM
數據集完整列表：https://huggingface.co/HuggingFaceTB/SmolVLM-Instruct/blob/main/smolvlm-data.pdf

SmolVLM的應用場景

視頻分析：SmolVLM展現出了在基本視頻分析任務中的潛力，尤其是在計算資源受限的情況下。在CinePile基準測試中，其得分達到27.14%，顯示了在視頻理解能力上的競爭力。
視覺語言處理：SmolVLM為開發者和研究人員提供了強大的工具，便于進行視覺語言處理，無需投入高昂的硬件費用。
本地部署：該小型模型支持在瀏覽器或邊緣設備上進行本地部署，降低推理成本，并支持用戶自定義。
AI普及化：SmolVLM的發展有望拓展視覺語言模型的應用范圍，使復雜的AI系統更加普及和易于訪問，為更廣泛的受眾提供強大的機器學習能力。

常見問題

SmolVLM是否適合移動設備使用？是的，SmolVLM專為設備端推理而設計，特別適合在移動設備和資源有限的環境中使用。
我如何微調SmolVLM？您可以選擇不同的版本，如SmolVLM-Base、SmolVLM-Synthetic或SmolVLM-Instruct，根據您的具體需求進行微調。
SmolVLM是開源的嗎？是的，SmolVLM完全開源，您可以訪問所有模型檢查點和工具。

閱讀原文