4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型
AIGC動態(tài)歡迎閱讀
原標(biāo)題:4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型
關(guān)鍵字:圖像,模型,本文,分辨率,內(nèi)存
文章來源:算法邦
內(nèi)容字?jǐn)?shù):19251字
內(nèi)容摘要:
直播預(yù)告 | 5月28日10點(diǎn),「智猩猩AI新青年講座」第236講正式開講,密歇根大學(xué)安娜堡分校在讀博士生張揮杰將直播講解《利用多級框架和多解碼器架構(gòu)提高擴(kuò)散模型訓(xùn)練效率》,歡迎掃名~文章鏈接:https://arxiv.org/pdf/2405.04312 github 鏈接:https://github.com/THUDM/Inf-DiT
擴(kuò)散模型在近年來的圖像生成中表現(xiàn)出了顯著的性能。然而,由于生成超高分辨率圖像(如 4096 × 4096)時(shí)內(nèi)存需求呈二次方增加,生成圖像的分辨率通常限制在 1024 × 1024。
本文提出了一種單向塊注意力機(jī)制,可以在推理過程中自適應(yīng)地調(diào)整內(nèi)存開銷并處理全局依賴關(guān)系。基于這個模塊,本文采用 DiT 結(jié)構(gòu)進(jìn)行上采樣,并開發(fā)了一種能夠?qū)Ω鞣N形狀和分辨率的圖像進(jìn)行上采樣的無限超分辨率模型。綜合實(shí)驗(yàn)表明,本文的模型在機(jī)器和人類評估中都達(dá)到了生成超高分辨率圖像的最新技術(shù)水平。與常用的 UNet 結(jié)構(gòu)相比,本文的模型在生成 4096 × 4096 圖像時(shí)可以節(jié)省超過 5 倍的內(nèi)存。
01介紹近年來,擴(kuò)散模型取得了迅速進(jìn)展,顯著推動了圖像生成和編輯領(lǐng)域
原文鏈接:4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型
聯(lián)系作者
文章來源:算法邦
作者微信:allplusai
作者簡介:智猩猩矩陣賬號之一,聚焦生成式AI,重點(diǎn)關(guān)注模型與應(yīng)用。