GAN歸來:模型大幅簡(jiǎn)化,訓(xùn)練更穩(wěn)定,逆襲擴(kuò)散模型,AI社區(qū)瘋傳
結(jié)構(gòu)更簡(jiǎn)單,性能更強(qiáng)大。
原標(biāo)題:GAN歸來:模型大幅簡(jiǎn)化,訓(xùn)練更穩(wěn)定,逆襲擴(kuò)散模型,AI社區(qū)瘋傳
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):6087字
GANs強(qiáng)勢(shì)回歸:極簡(jiǎn)主義R3GAN超越擴(kuò)散模型
機(jī)器之心近日?qǐng)?bào)道,一篇名為“極簡(jiǎn)主義GAN”的論文在AI社區(qū)引發(fā)熱議,該論文入選NeurIPS 2024,并成為HuggingFace周五熱度最高的研究。來自布朗大學(xué)和康奈爾大學(xué)的研究者們提出了一種新的損失函數(shù),解決了GAN長(zhǎng)期存在的模式崩潰和不穩(wěn)定性問題,使GAN能夠進(jìn)行更長(zhǎng)時(shí)間的訓(xùn)練,最終性能超越擴(kuò)散模型。
1. R3GAN:簡(jiǎn)化與超越
研究者們以StyleGAN2為基礎(chǔ),通過引入新的損失函數(shù)和現(xiàn)代化架構(gòu)設(shè)計(jì),構(gòu)建了名為R3GAN的極簡(jiǎn)GAN模型。R3GAN拋棄了StyleGAN2中許多經(jīng)驗(yàn)性的tricks,采用更簡(jiǎn)潔的網(wǎng)絡(luò)結(jié)構(gòu),但在圖像生成和數(shù)據(jù)增強(qiáng)任務(wù)上卻取得了優(yōu)于所有現(xiàn)有GAN模型和擴(kuò)散模型的性能。這證明了GAN并非如以往所認(rèn)為的那樣難以訓(xùn)練,其潛力遠(yuǎn)未被挖掘。
2. 解決GAN的長(zhǎng)期難題
傳統(tǒng)的GAN訓(xùn)練存在模式崩潰和不穩(wěn)定性等問題,通常需要大量經(jīng)驗(yàn)性的tricks來解決。R3GAN通過推導(dǎo)出一個(gè)行為良好的正則化相對(duì)GAN損失函數(shù),從數(shù)學(xué)層面保證了局部收斂性,從而有效地解決了這些問題,無需依賴大量的tricks。
3. 現(xiàn)代化架構(gòu)的應(yīng)用
R3GAN采用了現(xiàn)代化的卷積神經(jīng)網(wǎng)絡(luò)和Transformer架構(gòu)設(shè)計(jì),包括ResNet設(shè)計(jì)、改進(jìn)的初始化方法、重采樣技術(shù)、分組卷積和去歸一化等,這些都提升了模型的效率和性能。研究者們通過逐步簡(jiǎn)化StyleGAN2,最終得到了一個(gè)比StyleGAN2更簡(jiǎn)單、性能卻更好的R3GAN。
4. 實(shí)驗(yàn)結(jié)果驗(yàn)證
R3GAN在多個(gè)數(shù)據(jù)集(FFHQ、ImageNet、CIFAR和Stacked MNIST)上的實(shí)驗(yàn)結(jié)果表明,其在FID等指標(biāo)上均超越了StyleGAN2以及其他先進(jìn)的GAN和擴(kuò)散模型。即使在參數(shù)量更小的情況下,R3GAN仍然表現(xiàn)出色,證明了其效率和有效性。
5. 社區(qū)反響與未來展望
這篇論文在AI社區(qū)引發(fā)強(qiáng)烈反響,StabilityAI的研究總監(jiān)也對(duì)該研究給予了高度評(píng)價(jià)。R3GAN的出現(xiàn)為GAN的研究提供了新的方向,也為GAN的未來發(fā)展奠定了更簡(jiǎn)潔、可擴(kuò)展的基礎(chǔ)。 它證明了通過改進(jìn)損失函數(shù)和架構(gòu)設(shè)計(jì),GAN可以重新煥發(fā)生機(jī),甚至超越擴(kuò)散模型,成為更好、更快、更小的生成模型。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)