探索SmolVLM:僅需2B參數(shù)的全新開源AI家族成員!
SmolVLM是HuggingFace模型僅有2B參數(shù),以高效內(nèi)存占用著稱。
原標(biāo)題:HuggingFace端側(cè)家族新成員SmolVLM解讀&實(shí)戰(zhàn):僅2B參數(shù),完全開源
文章來源:智猩猩GenAI
內(nèi)容字?jǐn)?shù):8554字
引言
近年來,多模態(tài)領(lǐng)域發(fā)展迅猛,涌現(xiàn)出一系列大型視覺語言模型。然而,這些模型的計算資源需求高、部署成本大。為了解決這些問題,研究者們開始探索如何構(gòu)建高效且輕量級的多模態(tài)模型。
SmolVLM概述
SmolVLM是HuggingFace推出的一款精巧型視覺語言模型,具有2B參數(shù),特別注重內(nèi)存效率。該模型完全開源,包括模型權(quán)重、數(shù)據(jù)集和訓(xùn)練方案。
解決方案
SmolVLM通過創(chuàng)新的架構(gòu)設(shè)計和優(yōu)化策略來解決大型模型的資源消耗問題。其采用SmolLM2 1.7B作為語言模型基座,并使用9倍像素重排壓縮策略優(yōu)化圖像處理塊大小。
效果評估
在多個視覺語言基準(zhǔn)測試中,SmolVLM展現(xiàn)出優(yōu)異的資源效率,內(nèi)存占用最優(yōu)。與Qwen2-VL相比,SmolVLM在預(yù)填充和生成吞吐量方面均有顯著提升,達(dá)到了可競爭的水平。
架構(gòu)設(shè)計
SmolVLM的架構(gòu)與Idefics3相似,但在語言模型和圖像處理方面進(jìn)行了關(guān)鍵調(diào)整,優(yōu)化了圖像塊大小和壓縮策略,以實(shí)現(xiàn)更高效的性能。
訓(xùn)練過程
訓(xùn)練SmolVLM時,首先擴(kuò)展了SmolLM2的上下文長度,然后使用多種數(shù)據(jù)集進(jìn)行訓(xùn)練。這一過程確保了模型可以有效處理長文本和多圖像輸入。
性能基準(zhǔn)測試
SmolVLM在內(nèi)存使用和吞吐量方面表現(xiàn)出色,適合在資源有限的設(shè)備上運(yùn)行。其編碼效率高,僅需1.2k個token即可處理單張圖像,顯著降低了內(nèi)存消耗。
實(shí)戰(zhàn)應(yīng)用
SmolVLM已與VLMEvalKit集成,方便用戶在其他基準(zhǔn)測試上進(jìn)行評估。同時,用戶可以通過transformers庫快速加載并進(jìn)行微調(diào),以適應(yīng)不同的應(yīng)用需求。
總結(jié)
SmolVLM作為一款開源的視覺語言多模態(tài)模型,雖然在中文性能上仍有待提升,但其出色的計算效率和資源占用優(yōu)勢使其在多模態(tài)模型市場保持競爭力。對于追求輕量級、高性價比模型的開發(fā)者而言,SmolVLM是一個值得關(guān)注的選擇。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關(guān)注大模型與AI智能體,及時搜羅生成式AI技術(shù)產(chǎn)品。