4倍內存效率，生成和超分雙SOTA！清華&智譜AI發布最新Inf-DiT模型

AIGC動態1年前 (2024)發布算法邦

AIGC動態歡迎閱讀

原標題：4倍內存效率，生成和超分雙SOTA！清華&智譜AI發布最新Inf-DiT模型
關鍵字：圖像,模型,本文,分辨率,內存
文章來源：算法邦
內容字數：19251字

內容摘要：

直播預告 | 5月28日10點，「智猩猩AI新青年講座」第236講正式開講，密歇根大學安娜堡分校在讀博士生張揮杰將直播講解《利用多級框架和多解碼器架構提高擴散模型訓練效率》，歡迎掃名~文章鏈接：https://arxiv.org/pdf/2405.04312 github 鏈接：https://github.com/THUDM/Inf-DiT
擴散模型在近年來的圖像生成中表現出了顯著的性能。然而，由于生成超高分辨率圖像（如 4096 × 4096）時內存需求呈二次方增加，生成圖像的分辨率通常限制在 1024 × 1024。
本文提出了一種單向塊注意力機制，可以在推理過程中自適應地調整內存開銷并處理全局依賴關系。基于這個模塊，本文采用 DiT 結構進行上采樣，并開發了一種能夠對各種形狀和分辨率的圖像進行上采樣的無限超分辨率模型。綜合實驗表明，本文的模型在機器和人類評估中都達到了生成超高分辨率圖像的最新技術水平。與常用的 UNet 結構相比，本文的模型在生成 4096 × 4096 圖像時可以節省超過 5 倍的內存。
01介紹近年來，擴散模型取得了迅速進展，顯著推動了圖像生成和編輯領域

原文鏈接：4倍內存效率，生成和超分雙SOTA！清華&智譜AI發布最新Inf-DiT模型