僅有379M參數
原標題:終于等來能塞進手機的文生圖模型!十分之一體量,SnapGen實現百分百的效果
文章來源:機器之心
內容字數:7536字
SnapGen:輕量級移動端文生圖模型
本文介紹了Snap研究院Creative Vision團隊提出的SnapGen模型,這是一個僅有379M參數的文生圖模型,可在iPhone 16 Pro Max上以1.4秒的速度生成1024×1024像素的高質量圖像。該模型在多個基準測試中超越了參數量更大的模型,展現了其在移動端部署的高效性和高性能。
1. 模型高效性
SnapGen的成功源于對模型架構和訓練方法的全面優化。研究團隊對去噪UNet和圖像解碼器進行了精細調整,在資源使用和性能之間取得最佳平衡。具體優化包括:移除高分辨率自注意力層,使用寬度擴展的深度可分卷積替代常規卷積,降低全連接層中間通道維度,更早注入文本條件信息,以及優化自注意力和交叉注意力算子等。
通過在ImageNet-1K數據集上的實驗,驗證了這些架構優化的有效性。SnapGen在生成質量與現有模型相當的情況下,顯著降低了模型大小和計算量。
圖像解碼器方面,團隊通過移除冗余的自注意力機制和GroupNorm層,并減小網絡寬度,實現了近乎無損的36倍參數壓縮和54倍的解碼加速。
2. 多級知識蒸餾
SnapGen利用SD3.5-Large作為教師模型進行知識蒸餾。為了解決教師模型和學生模型的異構性以及不同時間步上蒸餾損失函數尺度不一致的問題,團隊提出了一種多級知識蒸餾框架,包含輸出蒸餾和特征蒸餾,并采用了時間步感知的縮放操作,加速了訓練并提升了模型生成能力。
3. 步數蒸餾
為了進一步減少推理時間,SnapGen使用了基于LADD的少步數蒸餾,將4步模型SD3.5-Large-Turbo作為教師模型和判別器的特征提取器。結果表明,經過蒸餾后的模型在4步和8步推理下仍能保持與28步相當的生成質量。
4. 實驗結果
在GenEval、DPG-Bench、CLIP Score on COCO和ImageReward等多個基準測試中,SnapGen在參數量最小、吞吐量最高的情況下,仍取得了領先的性能。人類偏好測試也表明,SnapGen生成的圖像在真實感、美學和文字圖像一致性方面與SD3-Medium和SD3.5-Large接近,并顯著超越SDXL。
5. 結論
SnapGen通過高效的模型架構、先進的知識蒸餾和少步數蒸餾算法,實現了在移動端高效生成高質量圖像的目標。它為文生圖模型的輕量化和移動端部署提供了一種新的思路,也為生成模型研究帶來了新的啟發。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺