原標題:英偉達聯手MIT清北發布SANA 1.5!線性擴散Transformer再刷文生圖新SOTA
文章來源:新智元
內容字數:7982字
SANA 1.5:高效可擴展的文本生成圖像模型
近年來,文本生成圖像技術飛速發展,但模型規模的擴大也帶來了巨大的計算成本。為了解決這一問題,英偉達聯合MIT、清華、北大等機構的研究人員,在SANA 1.0的基礎上,推出了SANA 1.5,一種高效可擴展的線性擴散Transformer模型。SANA 1.5通過三項創新,在保持甚至提升生成質量的同時,大幅降低了訓練和推理成本。
1. 高效模型增長策略
SANA 1.5提出了一種高效的模型增長策略,能夠將模型參數從16億(20層)擴展到48億(60層),同時顯著減少計算資源消耗。該策略并非從頭開始訓練大模型,而是通過有策略地初始化額外模塊,保留小模型的先驗知識,從而減少約60%的訓練時間。研究者比較了三種初始化策略,最終選擇“部分保留初始化”方法,因為它簡單且穩定。預訓練的層繼續發揮特征提取作用,新增層從恒等映射起步,逐步學習優化特征表示。
2. 模型深度剪枝技術
SANA 1.5引入了模型深度剪枝技術,通過分析Transformer塊的輸入輸出相似性,識別并保留關鍵塊,實現高效的模型壓縮。這種方法受Minitron啟發,頭部和尾部塊的重要性較高,而中間層則主要用于逐步優化生成結果。剪枝后,通過少量微調即可恢復模型質量,實現靈活的模型配置。實驗表明,剪枝后的16億參數模型能達到與完整的48億參數模型相近的質量。
3. 推理時擴展策略
SANA 1.5提出了一種推理期間擴展策略,通過增加采樣次數而非增加去噪步驟來提升生成質量。該策略利用視覺語言模型(VLM)對生成的圖像進行評價和篩選,選擇與文本提示匹配度最高的圖像。實驗結果顯示,這種方法將GenEval分數從0.72提升至0.80,顯著提高了生成圖像的質量和準確性。
4. 內存高效優化器
為了實現大模型的高效訓練與微調,SANA 1.5使用了CAME-8bit優化器,它比AdamW-32bit減少了約8倍的內存使用,同時保持訓練穩定性。這使得在消費級GPU上微調數十億參數的模型成為可能。
5. SANA 1.5的性能
SANA 1.5在GenEval基準測試中達到了最先進的性能。與傳統方法相比,其訓練收斂速度快2.5倍,GenEval分數從0.66提升至0.80。SANA-4.8B模型的參數數量遠小于其他先進模型,但生成質量卻能達到甚至超越它們。此外,SANA 1.5在推理速度和吞吐量方面也具有顯著優勢。
6. SANA 1.0的核心創新
SANA 1.0的核心創新在于其高效的設計:深度壓縮自動編碼器(32倍壓縮比)、線性DiT(線性注意力機制,降低計算復雜度)、僅解碼文本編碼器(Gemma模型)以及高效的訓練和采樣方法(Flow-DPM-Solver)。這些創新使得SANA-0.6B模型在保持與大型擴散模型相當的生成質量的同時,模型體積縮小了20倍,數據處理能力提升了100倍以上,甚至能在普通筆記本電腦上運行。
總而言之,SANA 1.5通過高效的模型增長、深度剪枝和推理時擴展策略,在文本生成圖像任務中取得了顯著的成果,為構建高效可擴展的大模型提供了新的思路。
聯系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯網+邁向智能+新紀元。重點關注人工智能、機器人等前沿領域發展,關注人機融合、人工智能和機器人對人類社會與文明進化的影響,領航中國新智能時代。