無(wú)需引導(dǎo)采樣，清華大學(xué)提出視覺(jué)模型訓(xùn)練新范式

新方法性能與 CFG 相當(dāng)，而采樣成本減半。

原標(biāo)題：無(wú)需引導(dǎo)采樣，清華大學(xué)提出視覺(jué)模型訓(xùn)練新范式
文章來(lái)源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：3511字

清華大學(xué)提出Guidance-Free Training (GFT)算法：高效且兼容的免引導(dǎo)采樣視覺(jué)生成模型訓(xùn)練方法

機(jī)器之心AIxiv專欄報(bào)道了清華大學(xué)TSAIL團(tuán)隊(duì)一項(xiàng)最新研究成果：Guidance-Free Training (GFT) 算法。該算法為視覺(jué)生成模型提供了一種極其簡(jiǎn)單高效的免引導(dǎo)采樣訓(xùn)練方法，在性能上與傳統(tǒng)的引導(dǎo)采樣算法Classifier-Free Guidance (CFG)相當(dāng)，同時(shí)顯著降低了采樣成本。

1. 引導(dǎo)采樣的問(wèn)題與GFT的解決方案

傳統(tǒng)的視覺(jué)生成模型常常依賴引導(dǎo)采樣（CFG）來(lái)提升生成質(zhì)量和多樣性。然而，CFG 需要同時(shí)進(jìn)行有條件和無(wú)條件兩次模型推理，導(dǎo)致計(jì)算開(kāi)銷翻倍，并在模型微調(diào)和蒸餾過(guò)程中增加復(fù)雜度。現(xiàn)有方法多采用基于預(yù)訓(xùn)練CFG模型的蒸餾手段，但會(huì)引入額外訓(xùn)練階段并可能造成性能損失。

GFT算法巧妙地解決了這個(gè)問(wèn)題。它通過(guò)直接訓(xùn)練一個(gè)“隱式”有條件模型，避免了顯式參數(shù)化無(wú)條件模型。該隱式模型由采樣模型和無(wú)條件模型的線性組合表示，線性組合系數(shù)β（“偽溫度系數(shù)”）控制著采樣模型與CFG算法定義的采樣分布的對(duì)應(yīng)關(guān)系。 GFT實(shí)現(xiàn)了原生免CFG視覺(jué)模型的從零訓(xùn)練，并擁有與CFG相當(dāng)?shù)氖諗克俣群筒蓸颖憩F(xiàn)。

2. GFT算法的設(shè)計(jì)與優(yōu)勢(shì)

GFT算法的核心在于其簡(jiǎn)潔性和高效性。它沿用了監(jiān)督訓(xùn)練中的擴(kuò)散損失函數(shù)，只需在訓(xùn)練過(guò)程中將有條件視覺(jué)模型表示為采樣模型和無(wú)條件模型的線性組合。這種設(shè)計(jì)使得GFT與CFG訓(xùn)練流程高度一致，只需修改不到10行代碼即可實(shí)現(xiàn)。

與CFG相比，GFT無(wú)需額外內(nèi)存開(kāi)銷，訓(xùn)練時(shí)間僅增加約20%，卻能節(jié)省50%的采樣成本。此外，GFT具有高度通用性，適用于擴(kuò)散、自回歸、掩碼三種類型的視覺(jué)模型。

3. 實(shí)驗(yàn)驗(yàn)證與結(jié)論

研究人員在五個(gè)不同的視覺(jué)架構(gòu)（DiT、Stable Diffusion、VAR、LlamaGen、MAR）上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。結(jié)果表明，GFT作為微調(diào)算法可以無(wú)損地將CFG預(yù)訓(xùn)練模型轉(zhuǎn)換為免引導(dǎo)采樣模型；作為預(yù)訓(xùn)練算法，GFT訓(xùn)練出的模型性能與CFG模型持平甚至更優(yōu)，損失函數(shù)收斂曲線也基本重合。GFT還能有效控制采樣質(zhì)量和多樣性的權(quán)衡。

4. 作者介紹

本文兩位共同一作均來(lái)自清華大學(xué)：陳華玉，計(jì)算機(jī)系四年級(jí)博士生，主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)與生成式模型；姜?jiǎng)P，TSAIL團(tuán)隊(duì)實(shí)習(xí)生，主要研究方向?yàn)橐曈X(jué)生成模型。

總而言之，GFT算法為視覺(jué)生成模型的訓(xùn)練提供了一種高效、簡(jiǎn)潔且兼容性強(qiáng)的免引導(dǎo)采樣方法，有望顯著提升視覺(jué)生成模型的訓(xùn)練效率和應(yīng)用。

聯(lián)系作者

文章來(lái)源：機(jī)器之心
作者微信：
作者簡(jiǎn)介：專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)

閱讀原文

# AIGC動(dòng)態(tài)# 新范式 # 無(wú)需引導(dǎo)采樣 # 清華大學(xué)# 視覺(jué)模型訓(xùn)練 # 長(zhǎng)尾分布

? 版權(quán)聲明

文章版權(quán)歸作者所有，未經(jīng)允許請(qǐng)勿轉(zhuǎn)載。

暫無(wú)評(píng)論

暫無(wú)評(píng)論...

無(wú)需引導(dǎo)采樣，清華大學(xué)提出視覺(jué)模型訓(xùn)練新范式

新方法性能與 CFG 相當(dāng)，而采樣成本減半。

清華大學(xué)提出Guidance-Free Training (GFT)算法：高效且兼容的免引導(dǎo)采樣視覺(jué)生成模型訓(xùn)練方法

1. 引導(dǎo)采樣的問(wèn)題與GFT的解決方案

2. GFT算法的設(shè)計(jì)與優(yōu)勢(shì)

3. 實(shí)驗(yàn)驗(yàn)證與結(jié)論

4. 作者介紹

聯(lián)系作者

哥大輟學(xué)天才獲OpenAI力挺，爆款A(yù)I一夜摧毀6000億廣告界！

DeepSeek一周：日活超豆包、云平臺(tái)搶食算力、賣課瘋賺；用AI大量替代員工？創(chuàng)始人聲明；字節(jié)辟謠員工被送精神治療|AI周報(bào)

相關(guān)文章

暫無(wú)評(píng)論

ChatGPT

畢業(yè)論文生成器

AIGC熱點(diǎn)