<li id="igemg"></li>

英偉達聯(lián)手MIT清北發(fā)布SANA 1.5！線性擴散Transformer再刷文生圖新SOTA

AIGC動態(tài)5個月前發(fā)布新智元

290 0 0

原標題：英偉達聯(lián)手MIT清北發(fā)布SANA 1.5！線性擴散Transformer再刷文生圖新SOTA
文章來源：新智元
內(nèi)容字數(shù)：7982字

SANA 1.5：高效可擴展的文本生成圖像模型

近年來，文本生成圖像技術(shù)飛速發(fā)展，但模型規(guī)模的擴大也帶來了巨大的計算成本。為了解決這一問題，英偉達聯(lián)合MIT、清華、北大等機構(gòu)的研究人員，在SANA 1.0的基礎(chǔ)上，推出了SANA 1.5，一種高效可擴展的線性擴散Transformer模型。SANA 1.5通過三項創(chuàng)新，在保持甚至提升生成質(zhì)量的同時，大幅降低了訓(xùn)練和推理成本。

1. 高效模型增長策略

SANA 1.5提出了一種高效的模型增長策略，能夠?qū)⒛Ｐ蛥?shù)從16億（20層）擴展到48億（60層），同時顯著減少計算資源消耗。該策略并非從頭開始訓(xùn)練大模型，而是通過有策略地初始化額外模塊，保留小模型的先驗知識，從而減少約60%的訓(xùn)練時間。研究者比較了三種初始化策略，最終選擇“部分保留初始化”方法，因為它簡單且穩(wěn)定。預(yù)訓(xùn)練的層繼續(xù)發(fā)揮特征提取作用，新增層從恒等映射起步，逐步學(xué)習(xí)優(yōu)化特征表示。

2. 模型深度剪枝技術(shù)

SANA 1.5引入了模型深度剪枝技術(shù)，通過分析Transformer塊的輸入輸出相似性，識別并保留關(guān)鍵塊，實現(xiàn)高效的模型壓縮。這種方法受Minitron啟發(fā)，頭部和尾部塊的重要性較高，而中間層則主要用于逐步優(yōu)化生成結(jié)果。剪枝后，通過少量微調(diào)即可恢復(fù)模型質(zhì)量，實現(xiàn)靈活的模型配置。實驗表明，剪枝后的16億參數(shù)模型能達到與完整的48億參數(shù)模型相近的質(zhì)量。

3. 推理時擴展策略

SANA 1.5提出了一種推理期間擴展策略，通過增加采樣次數(shù)而非增加去噪步驟來提升生成質(zhì)量。該策略利用視覺語言模型(VLM)對生成的圖像進行評價和篩選，選擇與文本提示匹配度最高的圖像。實驗結(jié)果顯示，這種方法將GenEval分數(shù)從0.72提升至0.80，顯著提高了生成圖像的質(zhì)量和準確性。

4. 內(nèi)存高效優(yōu)化器

為了實現(xiàn)大模型的高效訓(xùn)練與微調(diào)，SANA 1.5使用了CAME-8bit優(yōu)化器，它比AdamW-32bit減少了約8倍的內(nèi)存使用，同時保持訓(xùn)練穩(wěn)定性。這使得在消費級GPU上微調(diào)數(shù)十億參數(shù)的模型成為可能。

5. SANA 1.5的性能

SANA 1.5在GenEval基準測試中達到了最先進的性能。與傳統(tǒng)方法相比，其訓(xùn)練收斂速度快2.5倍，GenEval分數(shù)從0.66提升至0.80。SANA-4.8B模型的參數(shù)數(shù)量遠小于其他先進模型，但生成質(zhì)量卻能達到甚至超越它們。此外，SANA 1.5在推理速度和吞吐量方面也具有顯著優(yōu)勢。

6. SANA 1.0的核心創(chuàng)新

SANA 1.0的核心創(chuàng)新在于其高效的設(shè)計：深度壓縮自動編碼器（32倍壓縮比）、線性DiT（線性注意力機制，降低計算復(fù)雜度）、僅解碼文本編碼器（Gemma模型）以及高效的訓(xùn)練和采樣方法（Flow-DPM-Solver）。這些創(chuàng)新使得SANA-0.6B模型在保持與大型擴散模型相當(dāng)?shù)纳少|(zhì)量的同時，模型體積縮小了20倍，數(shù)據(jù)處理能力提升了100倍以上，甚至能在普通筆記本電腦上運行。

總而言之，SANA 1.5通過高效的模型增長、深度剪枝和推理時擴展策略，在文本生成圖像任務(wù)中取得了顯著的成果，為構(gòu)建高效可擴展的大模型提供了新的思路。