SANA 1.5

AI工具5個(gè)月前更新 AI工具集

830 0 0

SANA 1.5 – 英偉聯(lián)合MIT、清北等機(jī)構(gòu)推出的文生圖新框架

SANA 1.5是由英偉達(dá)與麻省理工學(xué)院、清華大學(xué)、北京大學(xué)等多家機(jī)構(gòu)聯(lián)合研發(fā)的一款新型高效線性擴(kuò)散變換器，專(zhuān)門(mén)用于文本到圖像的生成任務(wù)。這一版本在SANA 1.0的基礎(chǔ)上進(jìn)行了多項(xiàng)改進(jìn)，具備三大核心創(chuàng)新：高效的訓(xùn)練擴(kuò)展、模型深度剪枝和推理時(shí)擴(kuò)展。

SANA 1.5是什么

SANA 1.5是英偉達(dá)與麻省理工學(xué)院、清華大學(xué)、北京大學(xué)等多家機(jī)構(gòu)合作推出的新一代高效線性擴(kuò)散變換器，主要用于實(shí)現(xiàn)文本到圖像的生成。相比于SANA 1.0，該版本在性能上進(jìn)行了顯著提升，提出了三項(xiàng)重要?jiǎng)?chuàng)新：通過(guò)深度增長(zhǎng)范式將模型參數(shù)從16億擴(kuò)展至48億，顯著降低了計(jì)算資源的需求；采用模型深度剪枝技術(shù)，通過(guò)分析塊的重要性，對(duì)模型進(jìn)行高效壓縮，靈活調(diào)整模型規(guī)模以適應(yīng)不同的計(jì)算預(yù)算；在推理階段，通過(guò)重復(fù)采樣和基于視覺(jué)語(yǔ)言模型（VLM）的選擇機(jī)制，使得小型模型在推理時(shí)能夠達(dá)到大型模型的質(zhì)量。

SANA 1.5

SANA 1.5的主要功能

高效訓(xùn)練擴(kuò)展：通過(guò)深度增長(zhǎng)范式，SANA 1.5能夠?qū)⒛Ｐ蛥?shù)從16億擴(kuò)展至48億，極大地減少了所需的計(jì)算資源。
模型深度剪枝：本版本引入了基于塊重要性分析的模型壓縮技術(shù)，能夠在最小化質(zhì)量損失的情況下，將大型模型靈活壓縮到任意規(guī)模。通過(guò)分析輸入輸出的相似性模式，剪除不重要的塊，并通過(guò)微調(diào)快速恢復(fù)質(zhì)量。
推理時(shí)擴(kuò)展：SANA 1.5提出的推理時(shí)擴(kuò)展策略，通過(guò)生成多個(gè)樣本并利用VLM選擇最佳輸出，使得小模型在推理時(shí)能夠?qū)崿F(xiàn)大模型的質(zhì)量。
多語(yǔ)言支持：支持多種語(yǔ)言的文本輸入，包括中文、英文及表情符號(hào)，適合全球化內(nèi)容創(chuàng)作和本地化設(shè)計(jì)需求。
開(kāi)源與社區(qū)支持：SANA 1.5的源代碼和預(yù)訓(xùn)練模型已開(kāi)源，研究人員和開(kāi)發(fā)者可以進(jìn)行定制和擴(kuò)展，進(jìn)一步推動(dòng)其在學(xué)術(shù)和工業(yè)應(yīng)用中的普及。
推理效率：通過(guò)CAME-8bit優(yōu)化器，SANA 1.5能夠在單個(gè)消費(fèi)級(jí)GPU上高效地進(jìn)行大規(guī)模模型微調(diào)，使高質(zhì)量圖像生成變得更加高效和易于實(shí)現(xiàn)。

SANA 1.5的性能測(cè)試

模型增長(zhǎng)（Model Growth）：SANA 1.5通過(guò)模型增長(zhǎng)策略實(shí)現(xiàn)了從16億參數(shù)擴(kuò)展至48億參數(shù)，GenEval分?jǐn)?shù)從0.66提升至0.72，接近行業(yè)領(lǐng)先的Playground v3（24億參數(shù)）的0.76，并且推理延遲降低了5.5倍。
模型剪枝（Model Pruning）：通過(guò)深度剪枝，SANA 1.5能夠根據(jù)不同計(jì)算預(yù)算靈活調(diào)整模型大小。例如，將48億參數(shù)模型剪枝至16億參數(shù)后，經(jīng)過(guò)100步微調(diào)，GenEval分?jǐn)?shù)達(dá)到了0.672，超過(guò)了SANA 1.0 16億參數(shù)模型的0.664。
推理時(shí)擴(kuò)展（Inference Scaling）：通過(guò)生成多個(gè)樣本并基于VLM選擇最佳樣本，SANA 1.5的GenEval分?jǐn)?shù)從0.72提升至0.80，超越了Playground v3的0.76。

SANA 1.5的項(xiàng)目地址

arXiv技術(shù)論文：https://arxiv.org/pdf/2501.18427

SANA 1.5的應(yīng)用場(chǎng)景

創(chuàng)意設(shè)計(jì)：SANA 1.5能夠根據(jù)文本提示生成高質(zhì)量圖像，適合用于廣告設(shè)計(jì)、插畫(huà)創(chuàng)作、游戲美術(shù)等創(chuàng)意領(lǐng)域。
教學(xué)輔助：教師可利用SANA 1.5生成與課程相關(guān)的圖像，幫助學(xué)生更好地理解抽象概念。
影視制作：在影視制作中，SANA 1.5能夠生成概念藝術(shù)、場(chǎng)景設(shè)計(jì)圖等，助力導(dǎo)演和美術(shù)指導(dǎo)快速構(gòu)思和驗(yàn)證創(chuàng)意。
工程設(shè)計(jì)：工程師可以借助SANA 1.5生成工程設(shè)計(jì)的視覺(jué)效果圖，幫助團(tuán)隊(duì)更好地理解設(shè)計(jì)意圖并優(yōu)化設(shè)計(jì)方案。
移動(dòng)應(yīng)用：得益于模型深度剪枝和推理時(shí)擴(kuò)展，SANA 1.5可以高效運(yùn)行于移動(dòng)設(shè)備上，為移動(dòng)應(yīng)用提供實(shí)時(shí)圖像生成功能。
內(nèi)容審核：結(jié)合安全檢查模型（如ShieldGemma-2B），SANA 1.5能夠在生成圖像之前對(duì)用戶(hù)輸入的文本進(jìn)行審核，確保生成的內(nèi)容符合安全標(biāo)準(zhǔn)，避免生成不當(dāng)內(nèi)容。

閱讀原文