<span id="3dn8r"></span>
    1. <span id="3dn8r"><optgroup id="3dn8r"></optgroup></span><li id="3dn8r"><meter id="3dn8r"></meter></li>

        英偉達聯(lián)手MIT清北發(fā)布SANA 1.5!線性擴散Transformer再刷文生圖新SOTA

        AIGC動態(tài)5個月前發(fā)布 新智元
        290 0 0

        英偉達聯(lián)手MIT清北發(fā)布SANA 1.5!線性擴散Transformer再刷文生圖新SOTA

        原標題:英偉達聯(lián)手MIT清北發(fā)布SANA 1.5!線性擴散Transformer再刷文生圖新SOTA
        文章來源:新智元
        內(nèi)容字數(shù):7982字

        SANA 1.5:高效可擴展的文本生成圖像模型

        近年來,文本生成圖像技術(shù)飛速發(fā)展,但模型規(guī)模的擴大也帶來了巨大的計算成本。為了解決這一問題,英偉達聯(lián)合MIT、清華、北大等機構(gòu)的研究人員,在SANA 1.0的基礎(chǔ)上,推出了SANA 1.5,一種高效可擴展的線性擴散Transformer模型。SANA 1.5通過三項創(chuàng)新,在保持甚至提升生成質(zhì)量的同時,大幅降低了訓(xùn)練和推理成本。

        1. 高效模型增長策略

        SANA 1.5提出了一種高效的模型增長策略,能夠?qū)⒛P蛥?shù)從16億(20層)擴展到48億(60層),同時顯著減少計算資源消耗。該策略并非從頭開始訓(xùn)練大模型,而是通過有策略地初始化額外模塊,保留小模型的先驗知識,從而減少約60%的訓(xùn)練時間。研究者比較了三種初始化策略,最終選擇“部分保留初始化”方法,因為它簡單且穩(wěn)定。預(yù)訓(xùn)練的層繼續(xù)發(fā)揮特征提取作用,新增層從恒等映射起步,逐步學(xué)習(xí)優(yōu)化特征表示。

        2. 模型深度剪枝技術(shù)

        SANA 1.5引入了模型深度剪枝技術(shù),通過分析Transformer塊的輸入輸出相似性,識別并保留關(guān)鍵塊,實現(xiàn)高效的模型壓縮。這種方法受Minitron啟發(fā),頭部和尾部塊的重要性較高,而中間層則主要用于逐步優(yōu)化生成結(jié)果。剪枝后,通過少量微調(diào)即可恢復(fù)模型質(zhì)量,實現(xiàn)靈活的模型配置。實驗表明,剪枝后的16億參數(shù)模型能達到與完整的48億參數(shù)模型相近的質(zhì)量。

        3. 推理時擴展策略

        SANA 1.5提出了一種推理期間擴展策略,通過增加采樣次數(shù)而非增加去噪步驟來提升生成質(zhì)量。該策略利用視覺語言模型(VLM)對生成的圖像進行評價和篩選,選擇與文本提示匹配度最高的圖像。實驗結(jié)果顯示,這種方法將GenEval分數(shù)從0.72提升至0.80,顯著提高了生成圖像的質(zhì)量和準確性。

        4. 內(nèi)存高效優(yōu)化器

        為了實現(xiàn)大模型的高效訓(xùn)練與微調(diào),SANA 1.5使用了CAME-8bit優(yōu)化器,它比AdamW-32bit減少了約8倍的內(nèi)存使用,同時保持訓(xùn)練穩(wěn)定性。這使得在消費級GPU上微調(diào)數(shù)十億參數(shù)的模型成為可能。

        5. SANA 1.5的性能

        SANA 1.5在GenEval基準測試中達到了最先進的性能。與傳統(tǒng)方法相比,其訓(xùn)練收斂速度快2.5倍,GenEval分數(shù)從0.66提升至0.80。SANA-4.8B模型的參數(shù)數(shù)量遠小于其他先進模型,但生成質(zhì)量卻能達到甚至超越它們。此外,SANA 1.5在推理速度和吞吐量方面也具有顯著優(yōu)勢。

        6. SANA 1.0的核心創(chuàng)新

        SANA 1.0的核心創(chuàng)新在于其高效的設(shè)計:深度壓縮自動編碼器(32倍壓縮比)、線性DiT(線性注意力機制,降低計算復(fù)雜度)、僅解碼文本編碼器(Gemma模型)以及高效的訓(xùn)練和采樣方法(Flow-DPM-Solver)。這些創(chuàng)新使得SANA-0.6B模型在保持與大型擴散模型相當(dāng)?shù)纳少|(zhì)量的同時,模型體積縮小了20倍,數(shù)據(jù)處理能力提升了100倍以上,甚至能在普通筆記本電腦上運行。

        總而言之,SANA 1.5通過高效的模型增長、深度剪枝和推理時擴展策略,在文本生成圖像任務(wù)中取得了顯著的成果,為構(gòu)建高效可擴展的大模型提供了新的思路。


        聯(lián)系作者

        文章來源:新智元
        作者微信:
        作者簡介:智能+中國主平臺,致力于推動中國從互聯(lián)網(wǎng)+邁向智能+新紀元。重點關(guān)注人工智能、機器人等前沿領(lǐng)域發(fā)展,關(guān)注人機融合、人工智能和機器人對人類社會與文明進化的影響,領(lǐng)航中國新智能時代。

        閱讀原文
        ? 版權(quán)聲明
        蟬鏡AI數(shù)字人

        相關(guān)文章

        蟬鏡AI數(shù)字人

        暫無評論

        暫無評論...
        主站蜘蛛池模板: 久久亚洲精品人成综合网| 青娱乐免费视频在线观看| 日批日出水久久亚洲精品tv| 亚洲国产精久久久久久久 | 亚洲一区二区三区在线网站| 免费观看在线禁片| 亚洲日韩v无码中文字幕| 国产专区一va亚洲v天堂| 人妻无码久久一区二区三区免费 | 色窝窝免费一区二区三区 | 一级美国片免费看| 亚洲AⅤ视频一区二区三区| 羞羞视频免费网站入口| 国产大片91精品免费看3| 亚洲日韩中文字幕在线播放| 两性色午夜视频免费播放| 亚洲VA中文字幕无码一二三区| 久久福利青草精品资源站免费| 亚洲国产AV无码专区亚洲AV| 久久国产乱子伦精品免费一| 好大好硬好爽免费视频| 亚洲va在线va天堂va不卡下载| 久久久国产精品福利免费| 久久精品国产亚洲av麻豆小说 | 亚洲AV人人澡人人爽人人夜夜| 十八禁无码免费网站| 亚洲ts人妖网站| 国产资源免费观看| 99久久99这里只有免费的精品| 亚洲国产精久久久久久久| 久久久久久久久免费看无码| 免费大片av手机看片| 亚洲AV无码成人网站久久精品大 | 亚洲大尺度无码无码专区| 182tv免费视视频线路一二三| 亚洲中文字幕无码久久2020| 亚洲成A人片在线观看无码3D | 三上悠亚在线观看免费| 亚洲成人午夜电影| 四虎影视在线影院在线观看免费视频 | 精品久久香蕉国产线看观看亚洲|