無(wú)需引導(dǎo)采樣,清華大學(xué)提出視覺(jué)模型訓(xùn)練新范式
新方法性能與 CFG 相當(dāng),而采樣成本減半。
原標(biāo)題:無(wú)需引導(dǎo)采樣,清華大學(xué)提出視覺(jué)模型訓(xùn)練新范式
文章來(lái)源:機(jī)器之心
內(nèi)容字?jǐn)?shù):3511字
清華大學(xué)提出Guidance-Free Training (GFT)算法:高效且兼容的免引導(dǎo)采樣視覺(jué)生成模型訓(xùn)練方法
機(jī)器之心AIxiv專欄報(bào)道了清華大學(xué)TSAIL團(tuán)隊(duì)一項(xiàng)最新研究成果:Guidance-Free Training (GFT) 算法。該算法為視覺(jué)生成模型提供了一種極其簡(jiǎn)單高效的免引導(dǎo)采樣訓(xùn)練方法,在性能上與傳統(tǒng)的引導(dǎo)采樣算法Classifier-Free Guidance (CFG)相當(dāng),同時(shí)顯著降低了采樣成本。
1. 引導(dǎo)采樣的問(wèn)題與GFT的解決方案
傳統(tǒng)的視覺(jué)生成模型常常依賴引導(dǎo)采樣(CFG)來(lái)提升生成質(zhì)量和多樣性。然而,CFG 需要同時(shí)進(jìn)行有條件和無(wú)條件兩次模型推理,導(dǎo)致計(jì)算開(kāi)銷翻倍,并在模型微調(diào)和蒸餾過(guò)程中增加復(fù)雜度。現(xiàn)有方法多采用基于預(yù)訓(xùn)練CFG模型的蒸餾手段,但會(huì)引入額外訓(xùn)練階段并可能造成性能損失。
GFT算法巧妙地解決了這個(gè)問(wèn)題。它通過(guò)直接訓(xùn)練一個(gè)“隱式”有條件模型,避免了顯式參數(shù)化無(wú)條件模型。該隱式模型由采樣模型和無(wú)條件模型的線性組合表示,線性組合系數(shù)β(“偽溫度系數(shù)”)控制著采樣模型與CFG算法定義的采樣分布的對(duì)應(yīng)關(guān)系。 GFT實(shí)現(xiàn)了原生免CFG視覺(jué)模型的從零訓(xùn)練,并擁有與CFG相當(dāng)?shù)氖諗克俣群筒蓸颖憩F(xiàn)。
2. GFT算法的設(shè)計(jì)與優(yōu)勢(shì)
GFT算法的核心在于其簡(jiǎn)潔性和高效性。它沿用了監(jiān)督訓(xùn)練中的擴(kuò)散損失函數(shù),只需在訓(xùn)練過(guò)程中將有條件視覺(jué)模型表示為采樣模型和無(wú)條件模型的線性組合。這種設(shè)計(jì)使得GFT與CFG訓(xùn)練流程高度一致,只需修改不到10行代碼即可實(shí)現(xiàn)。
與CFG相比,GFT無(wú)需額外內(nèi)存開(kāi)銷,訓(xùn)練時(shí)間僅增加約20%,卻能節(jié)省50%的采樣成本。此外,GFT具有高度通用性,適用于擴(kuò)散、自回歸、掩碼三種類型的視覺(jué)模型。
3. 實(shí)驗(yàn)驗(yàn)證與結(jié)論
研究人員在五個(gè)不同的視覺(jué)架構(gòu)(DiT、Stable Diffusion、VAR、LlamaGen、MAR)上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。結(jié)果表明,GFT作為微調(diào)算法可以無(wú)損地將CFG預(yù)訓(xùn)練模型轉(zhuǎn)換為免引導(dǎo)采樣模型;作為預(yù)訓(xùn)練算法,GFT訓(xùn)練出的模型性能與CFG模型持平甚至更優(yōu),損失函數(shù)收斂曲線也基本重合。GFT還能有效控制采樣質(zhì)量和多樣性的權(quán)衡。
4. 作者介紹
本文兩位共同一作均來(lái)自清華大學(xué):陳華玉,計(jì)算機(jī)系四年級(jí)博士生,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)與生成式模型;姜?jiǎng)P,TSAIL團(tuán)隊(duì)實(shí)習(xí)生,主要研究方向?yàn)橐曈X(jué)生成模型。
總而言之,GFT算法為視覺(jué)生成模型的訓(xùn)練提供了一種高效、簡(jiǎn)潔且兼容性強(qiáng)的免引導(dǎo)采樣方法,有望顯著提升視覺(jué)生成模型的訓(xùn)練效率和應(yīng)用。
聯(lián)系作者
文章來(lái)源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)