MakeAnything 標志著 AI 從 “生成結果” 邁向 “生成過程” 的關鍵一步。
原標題:炒菜、雕刻、繪畫、汽車人變形!MakeAnything用擴散Transformer解鎖多任務過程生成
文章來源:機器之心
內容字數:5757字
新加坡國立大學MakeAnything:AI分步創作的突破
本文介紹了新加坡國立大學最新研究MakeAnything,該研究首次實現了高質量、跨領域的程序化序列生成,讓AI學會像人類一樣分步驟創作復雜作品,例如繪畫、手工藝和烹飪等。
1. 挑戰與解決思路
讓AI生成步驟教程面臨三大挑戰:多任務數據稀缺、步驟間邏輯連貫性不足以及跨領域泛化能力有限。MakeAnything通過構建大規模多領域數據集、激活DiT的上下文能力和采用非對稱LoRA技術,解決了這些難題。
2. 技術詳解
MakeAnything的核心技術包括:
- 蛇形拼圖與DiT:利用擴散Transformer (DiT) 的空間注意力機制,將多步驟幀排列成蛇形網格,強化模型對步驟順序的感知,避免邏輯斷層和外觀漂移。
- 非對稱LoRA:在所有數據集上微調共享矩陣A,學習通用知識和分步驟邏輯;對不同任務微調單獨矩陣B,適配具體任務特性,平衡通用知識與特定任務效果,提升跨任務泛化能力。
- ReCraft模型:利用變分自編碼器(VAE)編碼目標圖像特征,指導DiT去噪過程,實現從“成品圖”反推創作過程,特別適合逆向工程或從簡單圖像創造詳細教程的場景。
- 新任務泛化:MakeAnything展現了在新任務上的出色泛化能力,即使在未見過的任務上也能生成相對合理的結果,這歸因于不同任務間的共通性。
3. 實驗結果與評估
MakeAnything采用CLIP Score評估圖文一致性,用GPT-4和人工評估連貫性和有用性。對比實驗顯示,MakeAnything在圖文一致性、邏輯連貫性和有用性上均優于現有方法。消融實驗驗證了非對稱LoRA的有效性,它在兼顧過程合理性和圖文一致性方面表現出色。
4. 結論
MakeAnything是AI從“生成結果”邁向“生成過程”的關鍵一步,其代碼、模型和數據集已開源,為過程生成領域的研究和應用提供了有力支撐。
聯系作者
文章來源:機器之心
作者微信:
作者簡介:專業的人工智能媒體和產業服務平臺
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
相關文章
暫無評論...