英偉達聯(lián)手MIT清北發(fā)布SANA 1.5!線性擴散Transformer再刷文生圖新SOTA
原標題:英偉達聯(lián)手MIT清北發(fā)布SANA 1.5!線性擴散Transformer再刷文生圖新SOTA
文章來源:新智元
內(nèi)容字數(shù):7982字
SANA 1.5:高效可擴展的文本生成圖像模型
近年來,文本生成圖像技術(shù)飛速發(fā)展,但模型規(guī)模的擴大也帶來了巨大的計算成本。為了解決這一問題,英偉達聯(lián)合MIT、清華、北大等機構(gòu)的研究人員,在SANA 1.0的基礎(chǔ)上,推出了SANA 1.5,一種高效可擴展的線性擴散Transformer模型。SANA 1.5通過三項創(chuàng)新,在保持甚至提升生成質(zhì)量的同時,大幅降低了訓(xùn)練和推理成本。
1. 高效模型增長策略
SANA 1.5提出了一種高效的模型增長策略,能夠?qū)⒛P蛥?shù)從16億(20層)擴展到48億(60層),同時顯著減少計算資源消耗。該策略并非從頭開始訓(xùn)練大模型,而是通過有策略地初始化額外模塊,保留小模型的先驗知識,從而減少約60%的訓(xùn)練時間。研究者比較了三種初始化策略,最終選擇“部分保留初始化”方法,因為它簡單且穩(wěn)定。預(yù)訓(xùn)練的層繼續(xù)發(fā)揮特征提取作用,新增層從恒等映射起步,逐步學(xué)習(xí)優(yōu)化特征表示。
2. 模型深度剪枝技術(shù)
SANA 1.5引入了模型深度剪枝技術(shù),通過分析Transformer塊的輸入輸出相似性,識別并保留關(guān)鍵塊,實現(xiàn)高效的模型壓縮。這種方法受Minitron啟發(fā),頭部和尾部塊的重要性較高,而中間層則主要用于逐步優(yōu)化生成結(jié)果。剪枝后,通過少量微調(diào)即可恢復(fù)模型質(zhì)量,實現(xiàn)靈活的模型配置。實驗表明,剪枝后的16億參數(shù)模型能達到與完整的48億參數(shù)模型相近的質(zhì)量。
3. 推理時擴展策略
SANA 1.5提出了一種推理期間擴展策略,通過增加采樣次數(shù)而非增加去噪步驟來提升生成質(zhì)量。該策略利用視覺語言模型(VLM)對生成的圖像進行評價和篩選,選擇與文本提示匹配度最高的圖像。實驗結(jié)果顯示,這種方法將GenEval分數(shù)從0.72提升至0.80,顯著提高了生成圖像的質(zhì)量和準確性。
4. 內(nèi)存高效優(yōu)化器
為了實現(xiàn)大模型的高效訓(xùn)練與微調(diào),SANA 1.5使用了CAME-8bit優(yōu)化器,它比AdamW-32bit減少了約8倍的內(nèi)存使用,同時保持訓(xùn)練穩(wěn)定性。這使得在消費級GPU上微調(diào)數(shù)十億參數(shù)的模型成為可能。
5. SANA 1.5的性能
SANA 1.5在GenEval基準測試中達到了最先進的性能。與傳統(tǒng)方法相比,其訓(xùn)練收斂速度快2.5倍,GenEval分數(shù)從0.66提升至0.80。SANA-4.8B模型的參數(shù)數(shù)量遠小于其他先進模型,但生成質(zhì)量卻能達到甚至超越它們。此外,SANA 1.5在推理速度和吞吐量方面也具有顯著優(yōu)勢。
6. SANA 1.0的核心創(chuàng)新
SANA 1.0的核心創(chuàng)新在于其高效的設(shè)計:深度壓縮自動編碼器(32倍壓縮比)、線性DiT(線性注意力機制,降低計算復(fù)雜度)、僅解碼文本編碼器(Gemma模型)以及高效的訓(xùn)練和采樣方法(Flow-DPM-Solver)。這些創(chuàng)新使得SANA-0.6B模型在保持與大型擴散模型相當(dāng)?shù)纳少|(zhì)量的同時,模型體積縮小了20倍,數(shù)據(jù)處理能力提升了100倍以上,甚至能在普通筆記本電腦上運行。
總而言之,SANA 1.5通過高效的模型增長、深度剪枝和推理時擴展策略,在文本生成圖像任務(wù)中取得了顯著的成果,為構(gòu)建高效可擴展的大模型提供了新的思路。
聯(lián)系作者
文章來源:新智元
作者微信:
作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響,領(lǐng)航中國新智能時代。