突破極限:NUS LinFusion實現(xiàn)每分鐘生成16K高清圖像,兼容Stable Diffusion插件!
LinFusion架構(gòu)以一種新穎的廣義線性注意力機制作為傳統(tǒng)自注意力替代方案。
原標題:一分鐘生成16K高清圖像!NUS提出LinFusion,可兼容Stable Diffusion插件 | 一作、劉松樺博士主講預告
文章來源:智猩猩GenAI
內(nèi)容字數(shù):2652字
擴散模型的創(chuàng)新與挑戰(zhàn)
近年來,擴散模型在人工智能生成內(nèi)容(AIGC)領域取得了顯著進步。與傳統(tǒng)的生成對抗網(wǎng)絡(GAN)不同,擴散模型通過迭代細化噪聲向量,能夠產(chǎn)生具有精細細節(jié)的高質(zhì)量圖像。然而,現(xiàn)代擴散模型在生成高分辨率視覺內(nèi)容時面臨顯著挑戰(zhàn),因為其復雜度隨圖像分辨率呈二次增長,這使得處理復雜空間關系的自注意力機制成為瓶頸。
LinFusion架構(gòu)的提出
為了解決上述問題,新加坡國立大學在讀博士劉松樺提出了LinFusion架構(gòu),該架構(gòu)采用了一種新穎的廣義線性注意力機制作為傳統(tǒng)自注意力的替代方案。LinFusion經(jīng)過適度訓練后,能夠?qū)崿F(xiàn)與原始Stable Diffusion(SD)相當甚至更好的性能,同時顯著降低了時間和內(nèi)存復雜度,使得在1塊GPU上也能生成16K超高分辨率圖像。
關鍵特性與設計
在研究近期提出的線性復雜性模型時,劉松樺確定了兩個關鍵特性:注意力規(guī)范化和非因果推理。這些特性顯著提升了高分辨率視覺生成的性能。LinFusion通過引入一種廣義線性注意力范式,采用常見線性標記混合器的低秩近似,同時從預訓練的SD中提取知識以初始化模型,降低了訓練成本。
實驗結(jié)果與應用
實驗結(jié)果顯示,LinFusion在推理時間和內(nèi)存消耗上都有顯著減少,尤其在生成16K分辨率圖像時,模型能夠高效運行,僅需1塊GPU和1分鐘的時間。測試表明,LinFusion能夠生成高質(zhì)量的16K分辨率圖像,并展現(xiàn)出優(yōu)異的零樣本跨分辨率生成能力。此外,LinFusion無需額外調(diào)整即可兼容SD預訓練插件(如ControlNet和IP Adapter)。
講座信息與研究背景
劉松樺將在12月3日10點參與智猩猩AI新青年講座,主講《16K超高清圖像生成——預訓練擴散模型高效線性化》。他是新加坡國立大學的博士生,師從王鑫超教授,研究方向為高效數(shù)據(jù)合成及其在訓練中的應用。劉松樺在國際會議和期刊上以第一作者身份發(fā)表了十余篇論文,并獲得2023年度國家優(yōu)秀自費留學生獎學金。
報名與參與
有意觀看講座的朋友可添加小助手“米婭”報名,已添加的朋友可以私信“米婭”發(fā)送“ANY256”進行報名。參與者將在群中進行觀看和交流,期待更多人參與這一前沿技術(shù)的分享。
聯(lián)系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術(shù)產(chǎn)品。