炒菜、雕刻、繪畫、汽車人變形!MakeAnything用擴(kuò)散Transformer解鎖多任務(wù)過程生成
MakeAnything 標(biāo)志著 AI 從 “生成結(jié)果” 邁向 “生成過程” 的關(guān)鍵一步。
原標(biāo)題:炒菜、雕刻、繪畫、汽車人變形!MakeAnything用擴(kuò)散Transformer解鎖多任務(wù)過程生成
文章來源:機(jī)器之心
內(nèi)容字?jǐn)?shù):5757字
新加坡國(guó)立大學(xué)MakeAnything:AI分步創(chuàng)作的突破
本文介紹了新加坡國(guó)立大學(xué)最新研究MakeAnything,該研究首次實(shí)現(xiàn)了高質(zhì)量、跨領(lǐng)域的程序化序列生成,讓AI學(xué)會(huì)像人類一樣分步驟創(chuàng)作復(fù)雜作品,例如繪畫、手工藝和烹飪等。
1. 挑戰(zhàn)與解決思路
讓AI生成步驟教程面臨三大挑戰(zhàn):多任務(wù)數(shù)據(jù)稀缺、步驟間邏輯連貫性不足以及跨領(lǐng)域泛化能力有限。MakeAnything通過構(gòu)建大規(guī)模多領(lǐng)域數(shù)據(jù)集、激活DiT的上下文能力和采用非對(duì)稱LoRA技術(shù),解決了這些難題。
2. 技術(shù)詳解
MakeAnything的核心技術(shù)包括:
- 蛇形拼圖與DiT:利用擴(kuò)散Transformer (DiT) 的空間注意力機(jī)制,將多步驟幀排列成蛇形網(wǎng)格,強(qiáng)化模型對(duì)步驟順序的感知,避免邏輯斷層和外觀漂移。
- 非對(duì)稱LoRA:在所有數(shù)據(jù)集上微調(diào)共享矩陣A,學(xué)習(xí)通用知識(shí)和分步驟邏輯;對(duì)不同任務(wù)微調(diào)單獨(dú)矩陣B,適配具體任務(wù)特性,平衡通用知識(shí)與特定任務(wù)效果,提升跨任務(wù)泛化能力。
- ReCraft模型:利用變分自編碼器(VAE)編碼目標(biāo)圖像特征,指導(dǎo)DiT去噪過程,實(shí)現(xiàn)從“成品圖”反推創(chuàng)作過程,特別適合逆向工程或從簡(jiǎn)單圖像創(chuàng)造詳細(xì)教程的場(chǎng)景。
- 新任務(wù)泛化:MakeAnything展現(xiàn)了在新任務(wù)上的出色泛化能力,即使在未見過的任務(wù)上也能生成相對(duì)合理的結(jié)果,這歸因于不同任務(wù)間的共通性。
3. 實(shí)驗(yàn)結(jié)果與評(píng)估
MakeAnything采用CLIP Score評(píng)估圖文一致性,用GPT-4和人工評(píng)估連貫性和有用性。對(duì)比實(shí)驗(yàn)顯示,MakeAnything在圖文一致性、邏輯連貫性和有用性上均優(yōu)于現(xiàn)有方法。消融實(shí)驗(yàn)驗(yàn)證了非對(duì)稱LoRA的有效性,它在兼顧過程合理性和圖文一致性方面表現(xiàn)出色。
4. 結(jié)論
MakeAnything是AI從“生成結(jié)果”邁向“生成過程”的關(guān)鍵一步,其代碼、模型和數(shù)據(jù)集已開源,為過程生成領(lǐng)域的研究和應(yīng)用提供了有力支撐。
聯(lián)系作者
文章來源:機(jī)器之心
作者微信:
作者簡(jiǎn)介:專業(yè)的人工智能媒體和產(chǎn)業(yè)服務(wù)平臺(tái)