LinFusion架構以一種新穎的廣義線性注意力機制作為傳統自注意力替代方案。
原標題:一分鐘生成16K高清圖像!NUS提出LinFusion,可兼容Stable Diffusion插件 | 一作、劉松樺博士主講預告
文章來源:智猩猩GenAI
內容字數:2652字
擴散模型的創新與挑戰
近年來,擴散模型在人工智能生成內容(AIGC)領域取得了顯著進步。與傳統的生成對抗網絡(GAN)不同,擴散模型通過迭代細化噪聲向量,能夠產生具有精細細節的高質量圖像。然而,現代擴散模型在生成高分辨率視覺內容時面臨顯著挑戰,因為其復雜度隨圖像分辨率呈二次增長,這使得處理復雜空間關系的自注意力機制成為瓶頸。
LinFusion架構的提出
為了解決上述問題,新加坡國立大學在讀博士劉松樺提出了LinFusion架構,該架構采用了一種新穎的廣義線性注意力機制作為傳統自注意力的替代方案。LinFusion經過適度訓練后,能夠實現與原始Stable Diffusion(SD)相當甚至更好的性能,同時顯著降低了時間和內存復雜度,使得在1塊GPU上也能生成16K超高分辨率圖像。
關鍵特性與設計
在研究近期提出的線性復雜性模型時,劉松樺確定了兩個關鍵特性:注意力規范化和非因果推理。這些特性顯著提升了高分辨率視覺生成的性能。LinFusion通過引入一種廣義線性注意力范式,采用常見線性標記混合器的低秩近似,同時從預訓練的SD中提取知識以初始化模型,降低了訓練成本。
實驗結果與應用
實驗結果顯示,LinFusion在推理時間和內存消耗上都有顯著減少,尤其在生成16K分辨率圖像時,模型能夠高效運行,僅需1塊GPU和1分鐘的時間。測試表明,LinFusion能夠生成高質量的16K分辨率圖像,并展現出優異的零樣本跨分辨率生成能力。此外,LinFusion無需額外調整即可兼容SD預訓練插件(如ControlNet和IP Adapter)。
講座信息與研究背景
劉松樺將在12月3日10點參與智猩猩AI新青年講座,主講《16K超高清圖像生成——預訓練擴散模型高效線性化》。他是新加坡國立大學的博士生,師從王鑫超教授,研究方向為高效數據合成及其在訓練中的應用。劉松樺在國際會議和期刊上以第一作者身份發表了十余篇論文,并獲得2023年度國家優秀自費留學生獎學金。
報名與參與
有意觀看講座的朋友可添加小助手“米婭”報名,已添加的朋友可以私信“米婭”發送“ANY256”進行報名。參與者將在群中進行觀看和交流,期待更多人參與這一前沿技術的分享。
聯系作者
文章來源:智猩猩GenAI
作者微信:
作者簡介:智猩猩旗下公眾號之一,深入關注大模型與AI智能體,及時搜羅生成式AI技術產品。