SANA 1.5 – 英偉聯合MIT、清北等機構推出的文生圖新框架
SANA 1.5是由英偉達與麻省理工學院、清華大學、北京大學等多家機構聯合研發的一款新型高效線性擴散變換器,專門用于文本到圖像的生成任務。這一版本在SANA 1.0的基礎上進行了多項改進,具備三大核心創新:高效的訓練擴展、模型深度剪枝和推理時擴展。
SANA 1.5是什么
SANA 1.5是英偉達與麻省理工學院、清華大學、北京大學等多家機構合作推出的新一代高效線性擴散變換器,主要用于實現文本到圖像的生成。相比于SANA 1.0,該版本在性能上進行了顯著提升,提出了三項重要創新:通過深度增長范式將模型參數從16億擴展至48億,顯著降低了計算資源的需求;采用模型深度剪枝技術,通過分析塊的重要性,對模型進行高效壓縮,靈活調整模型規模以適應不同的計算預算;在推理階段,通過重復采樣和基于視覺語言模型(VLM)的選擇機制,使得小型模型在推理時能夠達到大型模型的質量。
SANA 1.5的主要功能
- 高效訓練擴展:通過深度增長范式,SANA 1.5能夠將模型參數從16億擴展至48億,極大地減少了所需的計算資源。
- 模型深度剪枝:本版本引入了基于塊重要性分析的模型壓縮技術,能夠在最小化質量損失的情況下,將大型模型靈活壓縮到任意規模。通過分析輸入輸出的相似性模式,剪除不重要的塊,并通過微調快速恢復質量。
- 推理時擴展:SANA 1.5提出的推理時擴展策略,通過生成多個樣本并利用VLM選擇最佳輸出,使得小模型在推理時能夠實現大模型的質量。
- 多語言支持:支持多種語言的文本輸入,包括中文、英文及表情符號,適合全球化內容創作和本地化設計需求。
- 開源與社區支持:SANA 1.5的源代碼和預訓練模型已開源,研究人員和開發者可以進行定制和擴展,進一步推動其在學術和工業應用中的普及。
- 推理效率:通過CAME-8bit優化器,SANA 1.5能夠在單個消費級GPU上高效地進行大規模模型微調,使高質量圖像生成變得更加高效和易于實現。
SANA 1.5的性能測試
- 模型增長(Model Growth):SANA 1.5通過模型增長策略實現了從16億參數擴展至48億參數,GenEval分數從0.66提升至0.72,接近行業領先的Playground v3(24億參數)的0.76,并且推理延遲降低了5.5倍。
- 模型剪枝(Model Pruning):通過深度剪枝,SANA 1.5能夠根據不同計算預算靈活調整模型大小。例如,將48億參數模型剪枝至16億參數后,經過100步微調,GenEval分數達到了0.672,超過了SANA 1.0 16億參數模型的0.664。
- 推理時擴展(Inference Scaling):通過生成多個樣本并基于VLM選擇最佳樣本,SANA 1.5的GenEval分數從0.72提升至0.80,超越了Playground v3的0.76。
SANA 1.5的項目地址
- arXiv技術論文:https://arxiv.org/pdf/2501.18427
SANA 1.5的應用場景
- 創意設計:SANA 1.5能夠根據文本提示生成高質量圖像,適合用于廣告設計、插畫創作、游戲美術等創意領域。
- 教學輔助:教師可利用SANA 1.5生成與課程相關的圖像,幫助學生更好地理解抽象概念。
- 影視制作:在影視制作中,SANA 1.5能夠生成概念藝術、場景設計圖等,助力導演和美術指導快速構思和驗證創意。
- 工程設計:工程師可以借助SANA 1.5生成工程設計的視覺效果圖,幫助團隊更好地理解設計意圖并優化設計方案。
- 移動應用:得益于模型深度剪枝和推理時擴展,SANA 1.5可以高效運行于移動設備上,為移動應用提供實時圖像生成功能。
- 內容審核:結合安全檢查模型(如ShieldGemma-2B),SANA 1.5能夠在生成圖像之前對用戶輸入的文本進行審核,確保生成的內容符合安全標準,避免生成不當內容。
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...