炒菜、雕刻、繪畫、汽車人變形！MakeAnything用擴(kuò)散Transformer解鎖多任務(wù)過程生成

MakeAnything 標(biāo)志著 AI 從 “生成結(jié)果” 邁向 “生成過程” 的關(guān)鍵一步。

原標(biāo)題：炒菜、雕刻、繪畫、汽車人變形！MakeAnything用擴(kuò)散Transformer解鎖多任務(wù)過程生成
文章來源：機(jī)器之心
內(nèi)容字?jǐn)?shù)：5757字

新加坡國(guó)立大學(xué)MakeAnything：AI分步創(chuàng)作的突破

本文介紹了新加坡國(guó)立大學(xué)最新研究MakeAnything，該研究首次實(shí)現(xiàn)了高質(zhì)量、跨領(lǐng)域的程序化序列生成，讓AI學(xué)會(huì)像人類一樣分步驟創(chuàng)作復(fù)雜作品，例如繪畫、手工藝和烹飪等。

1. 挑戰(zhàn)與解決思路

讓AI生成步驟教程面臨三大挑戰(zhàn)：多任務(wù)數(shù)據(jù)稀缺、步驟間邏輯連貫性不足以及跨領(lǐng)域泛化能力有限。MakeAnything通過構(gòu)建大規(guī)模多領(lǐng)域數(shù)據(jù)集、激活DiT的上下文能力和采用非對(duì)稱LoRA技術(shù)，解決了這些難題。

2. 技術(shù)詳解

MakeAnything的核心技術(shù)包括：

蛇形拼圖與DiT：利用擴(kuò)散Transformer (DiT) 的空間注意力機(jī)制，將多步驟幀排列成蛇形網(wǎng)格，強(qiáng)化模型對(duì)步驟順序的感知，避免邏輯斷層和外觀漂移。
非對(duì)稱LoRA：在所有數(shù)據(jù)集上微調(diào)共享矩陣A，學(xué)習(xí)通用知識(shí)和分步驟邏輯；對(duì)不同任務(wù)微調(diào)單獨(dú)矩陣B，適配具體任務(wù)特性，平衡通用知識(shí)與特定任務(wù)效果，提升跨任務(wù)泛化能力。
ReCraft模型：利用變分自編碼器(VAE)編碼目標(biāo)圖像特征，指導(dǎo)DiT去噪過程，實(shí)現(xiàn)從“成品圖”反推創(chuàng)作過程，特別適合逆向工程或從簡(jiǎn)單圖像創(chuàng)造詳細(xì)教程的場(chǎng)景。
新任務(wù)泛化：MakeAnything展現(xiàn)了在新任務(wù)上的出色泛化能力，即使在未見過的任務(wù)上也能生成相對(duì)合理的結(jié)果，這歸因于不同任務(wù)間的共通性。

3. 實(shí)驗(yàn)結(jié)果與評(píng)估

MakeAnything采用CLIP Score評(píng)估圖文一致性，用GPT-4和人工評(píng)估連貫性和有用性。對(duì)比實(shí)驗(yàn)顯示，MakeAnything在圖文一致性、邏輯連貫性和有用性上均優(yōu)于現(xiàn)有方法。消融實(shí)驗(yàn)驗(yàn)證了非對(duì)稱LoRA的有效性，它在兼顧過程合理性和圖文一致性方面表現(xiàn)出色。