SANA 1.5 – 英偉聯(lián)合MIT、清北等機(jī)構(gòu)推出的文生圖新框架
SANA 1.5是由英偉達(dá)與麻省理工學(xué)院、清華大學(xué)、北京大學(xué)等多家機(jī)構(gòu)聯(lián)合研發(fā)的一款新型高效線性擴(kuò)散變換器,專(zhuān)門(mén)用于文本到圖像的生成任務(wù)。這一版本在SANA 1.0的基礎(chǔ)上進(jìn)行了多項(xiàng)改進(jìn),具備三大核心創(chuàng)新:高效的訓(xùn)練擴(kuò)展、模型深度剪枝和推理時(shí)擴(kuò)展。
SANA 1.5是什么
SANA 1.5是英偉達(dá)與麻省理工學(xué)院、清華大學(xué)、北京大學(xué)等多家機(jī)構(gòu)合作推出的新一代高效線性擴(kuò)散變換器,主要用于實(shí)現(xiàn)文本到圖像的生成。相比于SANA 1.0,該版本在性能上進(jìn)行了顯著提升,提出了三項(xiàng)重要?jiǎng)?chuàng)新:通過(guò)深度增長(zhǎng)范式將模型參數(shù)從16億擴(kuò)展至48億,顯著降低了計(jì)算資源的需求;采用模型深度剪枝技術(shù),通過(guò)分析塊的重要性,對(duì)模型進(jìn)行高效壓縮,靈活調(diào)整模型規(guī)模以適應(yīng)不同的計(jì)算預(yù)算;在推理階段,通過(guò)重復(fù)采樣和基于視覺(jué)語(yǔ)言模型(VLM)的選擇機(jī)制,使得小型模型在推理時(shí)能夠達(dá)到大型模型的質(zhì)量。
SANA 1.5的主要功能
- 高效訓(xùn)練擴(kuò)展:通過(guò)深度增長(zhǎng)范式,SANA 1.5能夠?qū)⒛P蛥?shù)從16億擴(kuò)展至48億,極大地減少了所需的計(jì)算資源。
- 模型深度剪枝:本版本引入了基于塊重要性分析的模型壓縮技術(shù),能夠在最小化質(zhì)量損失的情況下,將大型模型靈活壓縮到任意規(guī)模。通過(guò)分析輸入輸出的相似性模式,剪除不重要的塊,并通過(guò)微調(diào)快速恢復(fù)質(zhì)量。
- 推理時(shí)擴(kuò)展:SANA 1.5提出的推理時(shí)擴(kuò)展策略,通過(guò)生成多個(gè)樣本并利用VLM選擇最佳輸出,使得小模型在推理時(shí)能夠?qū)崿F(xiàn)大模型的質(zhì)量。
- 多語(yǔ)言支持:支持多種語(yǔ)言的文本輸入,包括中文、英文及表情符號(hào),適合全球化內(nèi)容創(chuàng)作和本地化設(shè)計(jì)需求。
- 開(kāi)源與社區(qū)支持:SANA 1.5的源代碼和預(yù)訓(xùn)練模型已開(kāi)源,研究人員和開(kāi)發(fā)者可以進(jìn)行定制和擴(kuò)展,進(jìn)一步推動(dòng)其在學(xué)術(shù)和工業(yè)應(yīng)用中的普及。
- 推理效率:通過(guò)CAME-8bit優(yōu)化器,SANA 1.5能夠在單個(gè)消費(fèi)級(jí)GPU上高效地進(jìn)行大規(guī)模模型微調(diào),使高質(zhì)量圖像生成變得更加高效和易于實(shí)現(xiàn)。
SANA 1.5的性能測(cè)試
- 模型增長(zhǎng)(Model Growth):SANA 1.5通過(guò)模型增長(zhǎng)策略實(shí)現(xiàn)了從16億參數(shù)擴(kuò)展至48億參數(shù),GenEval分?jǐn)?shù)從0.66提升至0.72,接近行業(yè)領(lǐng)先的Playground v3(24億參數(shù))的0.76,并且推理延遲降低了5.5倍。
- 模型剪枝(Model Pruning):通過(guò)深度剪枝,SANA 1.5能夠根據(jù)不同計(jì)算預(yù)算靈活調(diào)整模型大小。例如,將48億參數(shù)模型剪枝至16億參數(shù)后,經(jīng)過(guò)100步微調(diào),GenEval分?jǐn)?shù)達(dá)到了0.672,超過(guò)了SANA 1.0 16億參數(shù)模型的0.664。
- 推理時(shí)擴(kuò)展(Inference Scaling):通過(guò)生成多個(gè)樣本并基于VLM選擇最佳樣本,SANA 1.5的GenEval分?jǐn)?shù)從0.72提升至0.80,超越了Playground v3的0.76。
SANA 1.5的項(xiàng)目地址
- arXiv技術(shù)論文:https://arxiv.org/pdf/2501.18427
SANA 1.5的應(yīng)用場(chǎng)景
- 創(chuàng)意設(shè)計(jì):SANA 1.5能夠根據(jù)文本提示生成高質(zhì)量圖像,適合用于廣告設(shè)計(jì)、插畫(huà)創(chuàng)作、游戲美術(shù)等創(chuàng)意領(lǐng)域。
- 教學(xué)輔助:教師可利用SANA 1.5生成與課程相關(guān)的圖像,幫助學(xué)生更好地理解抽象概念。
- 影視制作:在影視制作中,SANA 1.5能夠生成概念藝術(shù)、場(chǎng)景設(shè)計(jì)圖等,助力導(dǎo)演和美術(shù)指導(dǎo)快速構(gòu)思和驗(yàn)證創(chuàng)意。
- 工程設(shè)計(jì):工程師可以借助SANA 1.5生成工程設(shè)計(jì)的視覺(jué)效果圖,幫助團(tuán)隊(duì)更好地理解設(shè)計(jì)意圖并優(yōu)化設(shè)計(jì)方案。
- 移動(dòng)應(yīng)用:得益于模型深度剪枝和推理時(shí)擴(kuò)展,SANA 1.5可以高效運(yùn)行于移動(dòng)設(shè)備上,為移動(dòng)應(yīng)用提供實(shí)時(shí)圖像生成功能。
- 內(nèi)容審核:結(jié)合安全檢查模型(如ShieldGemma-2B),SANA 1.5能夠在生成圖像之前對(duì)用戶(hù)輸入的文本進(jìn)行審核,確保生成的內(nèi)容符合安全標(biāo)準(zhǔn),避免生成不當(dāng)內(nèi)容。
? 版權(quán)聲明
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。
相關(guān)文章
暫無(wú)評(píng)論...